Unigram在语言识别方面比Ngram提供更好的结果

问题描述投票：0回答：1

我有一个学校项目，其中包括从推文数据集中识别推文的每种语言。数据集包含西班牙语，葡萄牙语，英语，巴斯克语，加利西亚语和加泰罗尼亚语的推文。任务是使用单字组，双字组和三字组实现语言识别模型，并分析每种模型的效率。

我了解ngram的概念，并且我理解语言有些相似（因此这不是一项琐碎的任务），但是我不明白的是，与gramrams相比，我获得的unigram效果更好，我比三字组获得更好的二元组结果。

我不知道这怎么可能，因为我期望二元和三元组的效率更高。

您能帮助我阐明为什么会这样吗？

谢谢您的时间。

nlp

naivebayes

n-gram

categorization

1个回答

0
投票

您注意到，较小的平滑量比较高的平滑量更好。这是因为较低的那些使您可以收听数据

more。平滑就像是“先验信念”，但是您得到的计数代表实际数据。如果您进行过多平滑处理，那么现在（几乎）您将完全忽略您的数据！任何字母组合的可能性均等地变得可能。