如何在 stanfordrdnlp python 包中使用没有变音符号的阿拉伯语单词的引理?

问题描述 投票:0回答:3
我使用 stanford-nlp Python 包在阿拉伯语句子中应用了标记化和词形还原,结果如下:

文本: 引理: َِق

文本: §§ 引理: §§§
文本: ? 引理: ?

如何删除单词中的变音符号?

python stanford-nlp arabic
3个回答
0
投票
根据

github

块引用 rabbitTokenizer 支持各种可配置的拼写规范化选项 在阿拉伯语分段器中使用 -orthoOptions 标志。 -orthoOptions 的参数是以逗号分隔的列表 标准化选项。支持以下选项:

...

removeDiacritics :删除所有变音符号

removeTatweel : 剥离 tatweel 伸长字符

removeQuranChars :删除古兰经中出现的变音符号

...

这有帮助吗?


0
投票
简单的正则表达式将解决您的问题。

尝试以下代码删除阿拉伯语变音符号:

import re lemma = 'رَائِع' lemma_without_diacritics = re.sub(r'[\u064b-\u065f]', '', lemma) print(lemma_without_diacritics) # output: رائع

[\u064b-\u065f]

 代表标准阿拉伯语变音符号范围。

请参阅

阿拉伯语字符代码表了解更多信息。


0
投票
已经晚了,但我希望这个答案仍然可以帮助其他面临这个问题的人

您可以使用

hazm 库在 Python 中执行此操作:

pip install hazm from hazm import * text = "عِرَاق بَلَد رَائِع" cleaned = Normalizer().remove_diacritics(text) print(cleaned) # عراق بلد رائع
    
© www.soinside.com 2019 - 2024. All rights reserved.