目前,我正在使用nlp和python进行项目。我有内容,需要查找语言。我正在使用spacy来检测语言。图书馆仅提供英语语言。我需要查找是英式还是美式英语?有什么建议吗?
我尝试使用Spacy,NLTK,lang-detect。但是该库仅提供英语。但是我需要显示为en-GB(代表英国)和en-US(代表美国)。
您可以训练自己的模型。关于英语的许多特定地理位置数据都是collected by University of Leipzig,但其中不包括美国英语。 American National Corpus应该是可以使用的免费子集。
流行的语言库langid.py允许训练您自己的模型。他们有一个不错的tutorial on github。他们的模型基于字符三元组频率,在这种情况下,这可能不足以区分统计数据。
[另一种选择是使用例如Pytorch和transormers库在BERT上训练分类器。这肯定会取得很好的结果,但是如果您没有深度学习的经验,那么实际上可能会为您带来很多工作。