英式英语和美式英语的Python NLP区分

问题描述 投票:0回答:1

目前,我正在使用nlp和python进行项目。我有内容,需要查找语言。我正在使用spacy来检测语言。图书馆仅提供英语语言。我需要查找是英式还是美式英语?有什么建议吗?

我尝试使用Spacy,NLTK,lang-detect。但是该库仅提供英语。但是我需要显示为en-GB(代表英国)和en-US(代表美国)。

python nlp stanford-nlp spacy
1个回答
1
投票

您可以训练自己的模型。关于英语的许多特定地理位置数据都是collected by University of Leipzig,但其中不包括美国英语。 American National Corpus应该是可以使用的免费子集。

流行的语言库langid.py允许训练您自己的模型。他们有一个不错的tutorial on github。他们的模型基于字符三元组频率,在这种情况下,这可能不足以区分统计数据。

[另一种选择是使用例如Pytorch和transormers库在BERT上训练分类器。这肯定会取得很好的结果,但是如果您没有深度学习的经验,那么实际上可能会为您带来很多工作。

© www.soinside.com 2019 - 2024. All rights reserved.