是否有语言检测可以检测阿拉伯语和波斯语？

Question

我有一个 Twitter 文本数据集。该数据集中的大多数推文都是波斯语，其中一些是阿拉伯语。我想找到阿拉伯语推文。有没有 API 或工具可以帮我做到这一点？如果我想解释更多，我想要一个对波斯语和阿拉伯语推文进行分类的语言检测。谢谢。

Answer 1

你可以尝试langDetect

! pip install langdetect
from langdetect import detect

然后您可以创建一个类似的函数

def detecting(x):
    y=detect(x)
    return y

然后您可以将结果存储在其他列中，以便您了解每种推文语言

df['detect']=df['tweet_language'].apply(detecting)

希望这有帮助！！！！

Answer 2

您可以在这篇文章中看到几个选项：

如果您正在寻找波斯语推文，根据我的经验，您最终会找到一些达里语、普什图语、乌尔都语、阿拉伯语、库尔德语和阿塞拜疆语推文。这些工具都不能清楚地识别波斯语，特别是达里语、阿塞拜疆语和库尔德语推文。