是否有语言检测可以检测阿拉伯语和波斯语?

问题描述 投票:0回答:2

我有一个 Twitter 文本数据集。该数据集中的大多数推文都是波斯语,其中一些是阿拉伯语。 我想找到阿拉伯语推文。 有没有 API 或工具可以帮我做到这一点? 如果我想解释更多,我想要一个对波斯语和阿拉伯语推文进行分类的语言检测。 谢谢。

python nlp arabic farsi language-detection
2个回答
0
投票

你可以尝试langDetect

! pip install langdetect
from langdetect import detect 

然后您可以创建一个类似的函数

def detecting(x):
    y=detect(x)
    return y

然后您可以将结果存储在其他列中,以便您了解每种推文语言

df['detect']=df['tweet_language'].apply(detecting)

希望这有帮助!!!!


0
投票

您可以在这篇文章中看到几个选项:

https://stackoverflow.com/a/47106810/9204500

如果您正在寻找波斯语推文,根据我的经验,您最终会找到一些达里语、普什图语、乌尔都语、阿拉伯语、库尔德语和阿塞拜疆语推文。这些工具都不能清楚地识别波斯语,特别是达里语、阿塞拜疆语和库尔德语推文。

© www.soinside.com 2019 - 2024. All rights reserved.