我正在研究特定领域的情绪分析,我希望在特定语料库中获得每个独立词的极性(不是像“SentiWordNet”或其他词典那样的总分)
起初我认为使用以下公式会有所帮助:
positive_word_polarity = #word occurrence in positive reviews / # all words in pos and neg reviews
negative_word_polarity = #word occurrence in negative reviews / # all words in pos and neg reviews
但后来我发现了一些关于这个解决方案的问题(1)我们在正面评论中有“好”,负面评论“负面评论”2)可能有一些词出现很多但效果较差,反之亦然
)
所以基本上我的输入是评论和他们的极性,我需要一个包含单词和极性的词典。
感谢先进的帮助
要解决问题2)
,你可以将你的极性公式与tfidf相乘
逆文档频率是该单词提供的信息量的度量,即,它是否在所有文档中是常见的或罕见的。