是否可以用标记的数据训练情感分类模型，然后将其用于预测未标记的数据的情感？

问题描述投票：0回答：1

我想使用机器学习（文本分类）方法进行情感分析。例如nltk朴素贝叶斯分类器。但是问题是我的少量数据被标记了。（例如，将100篇文章标记为正面或负面），而500篇文章未标记。我当时以为我用标签数据训练分类器，然后尝试预测未标签数据的情绪。可能吗？我是机器学习的初学者，对此了解不多。

我正在使用python 3.7。

谢谢你。

nltk

python-3.7

sentiment-analysis

text-classification

training-data

1个回答

0
投票

是否有可能用标记的数据训练情感分类模型，然后将其用于预测未标记的数据的情绪？

是。这基本上是监督学习的定义。

即您可以对具有标签的数据进行训练，以便随后可以对不具有标签的数据进行分类。

（任何有关监督学习的书都会有代码示例。）

我想知道您的问题是否真的是：我可以使用监督学习来建立模型，为另外500篇文章分配标签，然后对全部600篇文章进行进一步的机器学习吗？答案仍然是肯定的，但是质量将介于这两个极端之间：

将随机标签分配给500。不良结果。
让一位域专家为这500个标签分配正确的标签。

您的模型可能介于这两个极端之间。知道它在哪里很有用，所以知道是否值得使用这些数据。您可以通过抽样（例如25条记录）并由领域专家分配它们来获得估计值。如果所有25条记录都匹配，则您的其他475条记录也很有可能获得了良好的标签。如果例如在25个匹配中只有10个匹配，该模型更接近频谱的随机末端，并且使用其他475条记录可能不是一个好主意。

（（“ 10”，“ 25”等是任意示例；请根据不同标签的数量以及您对结果的期望置信度进行选择。）

是否可以用标记的数据训练情感分类模型，然后将其用于预测未标记的数据的情感？

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1