K-means,包字,Word嵌入文本分类CSV文件和检索数据相关联

问题描述 投票:0回答:1

我有两个任务要做。

1)我必须提取包含发票数据的任何CVS文件的标题。具体为:发票号,地址,地点,实物好。我被要求为此任务创建文本分类器,因此分类器将遍历任何CVS文件并识别这4个标头。

2)在分类器识别出4个单词后,我必须找到附加该列的数据并创建一个类。

我研究了这个问题,我认为必须适用的三种方法是:1)不好的单词2)嵌入字3)K均值聚类

一袋单词可以识别单词,但它不会给我单词本身的位置去抓取列并创建类。

对于这项任务,Word嵌入式过于复杂,我相信,即使在文件中给出我这个单词的位置也太费时间了

K-means似乎简单有效,告诉我这个词在哪里。

我开始编码之前的问题

我错过了什么。我的推理是否正确?最重要的第二个问题一旦在CSV文件中识别出该单词的位置,我将其转换为编码,以便我可以在该列中附加数据

python python-3.x nlp supervised-learning
1个回答
0
投票

我只想:

  • 看一下文件的第一行(标题); filter你要找的列名,使用enumerate所以结果将包含列索引 从过滤结果中检索列索引
  • 迭代文件的其余部分; 使用这些索引从每行/每行中提取特定列的数据 将该数据放入容器中以供以后使用(可能使用列表)
© www.soinside.com 2019 - 2024. All rights reserved.