portuguese tokenizer:t打破了“a”和“o”中的“ao”

问题描述 投票:0回答:1

我使用Spacy作为葡萄牙文档的标记器(最新版本)。 但是,它在下面的句子中犯了一个错误:'esta quebrando aonde nao devia,separando a e o em ao e aos'。它打破了“a”和“o”中的“ao”。用“aonde”(“a”+“onde”)和othes(“aos”等)等其他词语也是如此。其他奇怪的情况:“àquele”变成“a”和“quele”; “às”分为“à”和“s”。问题可以在https://spacy.io/models/pt的“测试模型实时(实验)”中显示。现在,我正在使用tokenizer.add_special_case添加一些已知单词。但我可能不记得所有的情况。有可能调整这个问题吗?

tokenize
1个回答
0
投票

我似乎很适合在两个功能部分中分解“ao”这个词:介词和文章。根据应用程序的不同,根据官方语法的要求将这些部分连接在一起很简单。

© www.soinside.com 2019 - 2024. All rights reserved.