Unigram在语言识别方面比Ngram提供更好的结果

问题描述 投票:0回答:1

我有一个学校项目,其中包括从推文数据集中识别推文的每种语言。数据集包含西班牙语,葡萄牙语,英语,巴斯克语,加利西亚语和加泰罗尼亚语的推文。任务是使用单字组,双字组和三字组实现语言识别模型,并分析每种模型的效率。

我了解ngram的概念,并且我理解语言有些相似(因此这不是一项琐碎的任务),但是我不明白的是,与gramrams相比,我获得的unigram效果更好,我比三字组获得更好的二元组结果。

我不知道这怎么可能,因为我期望二元和三元组的效率更高。

您能帮助我阐明为什么会这样吗?

谢谢您的时间。

nlp naivebayes n-gram categorization
1个回答
0
投票
您注意到,较小的平滑量比较高的平滑量更好。这是因为较低的那些使您可以收听数据

more。平滑就像是“先验信念”,但是您得到的计数代表实际数据。如果您进行过多平滑处理,那么现在(几乎)您将完全忽略您的数据!任何字母组合的可能性均等地变得可能。

© www.soinside.com 2019 - 2024. All rights reserved.