我使用Naive Bayes算法创建了一个单词情感应用程序。
该分类训练数据中有两种类型的标准,即积极训练数据和负训练数据。我对已经分组的每个训练数据都采用了一个独特的词。所以,我对每个数据标准都有所有独特的单词。然后,我计算每个唯一单词出现的概率值。
问题是当我使用不均匀的训练数据时。例如:我使用60%的负面训练数据和40%的正面训练数据。那么测试数据的结果将更可能是负面结果,反之亦然。
除了我必须使用平衡数据,我该怎么做才能解决这个问题?还有一个我应该添加的方法吗?
朴素贝叶斯需要平衡的训练数据,因为每个参数的可能性受先前值(优先级值)的影响。
该先前值取自每个数据的类。当我解释这种事情时,也许你已经明白了。