在每次审查中获得单词极性

Question

我正在研究特定领域的情绪分析，我希望在特定语料库中获得每个独立词的极性（不是像“SentiWordNet”或其他词典那样的总分）

起初我认为使用以下公式会有所帮助：

positive_word_polarity = #word occurrence in positive reviews / # all words in pos and neg reviews

negative_word_polarity = #word occurrence in negative reviews / # all words in pos and neg reviews

但后来我发现了一些关于这个解决方案的问题（1）我们在正面评论中有“好”，负面评论“负面评论”2）可能有一些词出现很多但效果较差，反之亦然

)

所以基本上我的输入是评论和他们的极性，我需要一个包含单词和极性的词典。

感谢先进的帮助

Answer 1

要解决问题2)，你可以将你的极性公式与tfidf相乘

逆文档频率是该单词提供的信息量的度量，即，它是否在所有文档中是常见的或罕见的。