简单地说,我有 2 个主要列“名字”、“姓氏”,用于存储名字和姓氏的数据,这些数据是拉丁文的。
我尝试根据音译类型使用不同的库,但它们不适用于诸如 BOLATKHANOV 之类的姓氏,它显示为“”БОЛАТКХАНОВ”(尽管 БОЛАТХАНОВ 应该出现)
另一个例子:** TSAI **,它给出的是“ТСАИ”(但结果应该是“ЦАЙ”。图书馆在某些情况下无法将“I”识别为“Y”)
有什么图书馆可以提供帮助或其他吗?
我将非常感谢您的回答!
您尝试过停用词吗?
import nltk
from nltk.corpus import stopwords
stops = set(stopwords.words('russian'))
print(stops)
另请参阅可用语言。