我有一个学校项目,其中包括从推文数据集中识别推文的每种语言。数据集包含西班牙语,葡萄牙语,英语,巴斯克语,加利西亚语和加泰罗尼亚语的推文。任务是使用单字组,双字组和三字组实现语言识别模型,并分析每种模型的效率。
我了解ngram的概念,并且我理解语言有些相似(因此这不是一项琐碎的任务),但是我不明白的是,与gramrams相比,我获得的unigram效果更好,我比三字组获得更好的二元组结果。
我不知道这怎么可能,因为我期望二元和三元组的效率更高。
您能帮助我阐明为什么会这样吗?
谢谢您的时间。
more。平滑就像是“先验信念”,但是您得到的计数代表实际数据。如果您进行过多平滑处理,那么现在(几乎)您将完全忽略您的数据!任何字母组合的可能性均等地变得可能。