启动情感分析项目的最佳实践?

问题描述 投票:0回答:1

[我对AI和情感分析进行了大量研究后,发现了两种进行文本分析的方法。

完成文本的预处理之后,我们必须创建一个分类才能获得肯定和否定,所以我的问题是最好有示例:

第一种方式:

  • 要训练的100条文本记录,其中包括2个字段text状态字段指示其正1或负0。

第二种方式:100个文本记录,用于训练和制作单词袋的词汇,以便基于此单词袋训练和比较测试记录。

如果我对我的问题有误,请给我打电话并纠正我的问题。

python nltk sentiment-analysis
1个回答
0
投票

我认为您可能会在这里错过某些内容,因此要训练情感分析模型,您将拥有一个训练数据,该数据的每一行都带有标签(正或负)和原始文本。为了使计算机可以理解或“看到”文本,是通过将文本表示为数字(因为计算机无法理解文本),因此,将文本表示为数字的一种方法是使用单词袋(还有其他方法可以表示诸如TF / IDFWORD2VEC等的文本。因此,当您使用数据火车训练模型时,该程序应预处理原始文本,然后(在这种情况下)应制作一袋单词映射,其中每个元素位置代表一个词汇,如果该单词变为1或多个在文本中存在,如果不存在则为0。

现在假设培训已完成,然后程序生成一个model,您将保存该模型,因此,无论何时要测试数据,都无需再次重新训练程序。现在,当您要测试时,是的,您将使用train data的单词映射包,假设测试数据集中有一个单词从未出现在train数据集中,然后将其映射为0。] >

简而言之:

当您要测试时,必须使用数据列中的单词映射包

© www.soinside.com 2019 - 2024. All rights reserved.