是否可以用标记的数据训练情感分类模型,然后将其用于预测未标记的数据的情感?

问题描述 投票:0回答:1

我想使用机器学习(文本分类)方法进行情感分析。例如nltk朴素贝叶斯分类器。但是问题是我的少量数据被标记了。 (例如,将100篇文章标记为正面或负面),而500篇文章未标记。我当时以为我用标签数据训练分类器,然后尝试预测未标签数据的情绪。可能吗?我是机器学习的初学者,对此了解不多。

我正在使用python 3.7。

谢谢你。

nltk python-3.7 sentiment-analysis text-classification training-data
1个回答
0
投票

是否有可能用标记的数据训练情感分类模型,然后将其用于预测未标记的数据的情绪?

是。这基本上是监督学习的定义。

即您可以对具有标签的数据进行训练,以便随后可以对不具有标签的数据进行分类。

(任何有关监督学习的书都会有代码示例。)

我想知道您的问题是否真的是:我可以使用监督学习来建立模型,为另外500篇文章分配标签,然后对全部600篇文章进行进一步的机器学习吗?答案仍然是肯定的,但是质量将介于这两个极端之间:

  • 将随机标签分配给500。不良结果。
  • 让一位域专家为这500个标签分配正确的标签。
  • 您的模型可能介于这两个极端之间。知道它在哪里很有用,所以知道是否值得使用这些数据。您可以通过抽样(例如25条记录)并由领域专家分配它们来获得估计值。如果所有25条记录都匹配,则您的其他475条记录也很有可能获得了良好的标签。如果例如在25个匹配中只有10个匹配,该模型更接近频谱的随机末端,并且使用其他475条记录可能不是一个好主意。

((“ 10”,“ 25”等是任意示例;请根据不同标签的数量以及您对结果的期望置信度进行选择。)

© www.soinside.com 2019 - 2024. All rights reserved.