我有两个任务要做。
1)我必须提取包含发票数据的任何CVS文件的标题。具体为:发票号,地址,地点,实物好。我被要求为此任务创建文本分类器,因此分类器将遍历任何CVS文件并识别这4个标头。
2)在分类器识别出4个单词后,我必须找到附加该列的数据并创建一个类。
我研究了这个问题,我认为必须适用的三种方法是:1)不好的单词2)嵌入字3)K均值聚类
一袋单词可以识别单词,但它不会给我单词本身的位置去抓取列并创建类。
对于这项任务,Word嵌入式过于复杂,我相信,即使在文件中给出我这个单词的位置也太费时间了
K-means似乎简单有效,告诉我这个词在哪里。
我开始编码之前的问题
我错过了什么。我的推理是否正确?最重要的第二个问题一旦在CSV文件中识别出该单词的位置,我将其转换为编码,以便我可以在该列中附加数据