如何标记未标记的文本数据

问题描述 投票:0回答:2

我收集了一些有关食品评论的社交媒体评论,我计划进行方面基础情感分析。作为初始过程,我想将那些未标记的数据标记为一些预定义的主题,例如价格、质量、口味等。 由于我是机器学习的新手,不确定是否可以在没有标记测试数据的情况下进行标记。感谢您的帮助

我尝试过LDA主题建模,但觉得这不是正确的方法。

machine-learning label lda
2个回答
0
投票

基于方面的情感分析是 NLP 中的一个复杂问题。它实际上比标准情绪分析要棘手。

当然,您可以使用标签,但如果您没有初步计划,这可能会浪费时间。您需要确保以正确的方式进行标记,并且至少有一定的确定性,您的模型将从不多的示例中学到一些东西(假设您是唯一标记它们的人)。

我建议您阅读一些有关基于方面的情感分析的论文。一般来说,除了方面本身之外,提供有关方面的附加信息确实很有用。例如,如果你有这样的句子:

“航班很好,但我旁边的乘客非常吵闹,很烦人”。

假设您只关心“飞行”方面。您可以将以下训练示例传递给模型:

((编码(句子), 编码(方面)), 1)

1 这里表示对该方面有积极的情绪。如果您有较短的句子,假设您将使用变压器作为主干,那么这很好,因为方面“飞行”的编码/嵌入是上下文相关的,并且它将包含有关周围单词的信息(或者更准确地说,它将是以智能方式编码,以便编码适合上下文)。

但是想象一下,如果您有一篇很大的文章,并且您关心只提到一次的某个方面的情绪。然后传递文章的编码和微小方面的编码可能会混淆模型。正如您正确地认为的那样,提供有关该方面的更多信息是适当的,例如它的主题是什么,甚至是讨论该方面的文本部分(句子),因此模型具有更多信息。

这一切都归结为您需要执行什么样的任务。

你可以查看这个库:https://github.com/yangheng95/PyABSA,虽然它的文档不是很好,而且有点难以习惯。

如果您有任何疑问,请在评论中告诉我。


-2
投票
© www.soinside.com 2019 - 2024. All rights reserved.