如何标记未标记的文本数据

我收集了一些有关食品评论的社交媒体评论，我计划进行方面基础情感分析。作为初始过程，我想将那些未标记的数据标记为一些预定义的主题，例如价格、质量、口味等。由于我是机器学习的新手，不确定是否可以在没有标记测试数据的情况下进行标记。感谢您的帮助

我尝试过LDA主题建模，但觉得这不是正确的方法。

0
投票

基于方面的情感分析是 NLP 中的一个复杂问题。它实际上比标准情绪分析要棘手。

当然，您可以使用标签，但如果您没有初步计划，这可能会浪费时间。您需要确保以正确的方式进行标记，并且至少有一定的确定性，您的模型将从不多的示例中学到一些东西（假设您是唯一标记它们的人）。

我建议您阅读一些有关基于方面的情感分析的论文。一般来说，除了方面本身之外，提供有关方面的附加信息确实很有用。例如，如果你有这样的句子：

“航班很好，但我旁边的乘客非常吵闹，很烦人”。

假设您只关心“飞行”方面。您可以将以下训练示例传递给模型：

((编码(句子), 编码(方面)), 1)

1 这里表示对该方面有积极的情绪。如果您有较短的句子，假设您将使用变压器作为主干，那么这很好，因为方面“飞行”的编码/嵌入是上下文相关的，并且它将包含有关周围单词的信息（或者更准确地说，它将是以智能方式编码，以便编码适合上下文）。

但是想象一下，如果您有一篇很大的文章，并且您关心只提到一次的某个方面的情绪。然后传递文章的编码和微小方面的编码可能会混淆模型。正如您正确地认为的那样，提供有关该方面的更多信息是适当的，例如它的主题是什么，甚至是讨论该方面的文本部分（句子），因此模型具有更多信息。

这一切都归结为您需要执行什么样的任务。

你可以查看这个库：https://github.com/yangheng95/PyABSA，虽然它的文档不是很好，而且有点难以习惯。

如果您有任何疑问，请在评论中告诉我。

-2
投票

数据标注完整指南！