我有一个 Twitter 文本数据集。该数据集中的大多数推文都是波斯语,其中一些是阿拉伯语。 我想找到阿拉伯语推文。 有没有 API 或工具可以帮我做到这一点? 如果我想解释更多,我想要一个对波斯语和阿拉伯语推文进行分类的语言检测。 谢谢。
你可以尝试langDetect
! pip install langdetect
from langdetect import detect
然后您可以创建一个类似的函数
def detecting(x):
y=detect(x)
return y
然后您可以将结果存储在其他列中,以便您了解每种推文语言
df['detect']=df['tweet_language'].apply(detecting)
希望这有帮助!!!!
您可以在这篇文章中看到几个选项:
https://stackoverflow.com/a/47106810/9204500
如果您正在寻找波斯语推文,根据我的经验,您最终会找到一些达里语、普什图语、乌尔都语、阿拉伯语、库尔德语和阿塞拜疆语推文。这些工具都不能清楚地识别波斯语,特别是达里语、阿塞拜疆语和库尔德语推文。