文本: 引理: َِق
文本: §§ 引理: §§§
文本: ? 引理: ?
github:
块引用 rabbitTokenizer 支持各种可配置的拼写规范化选项 在阿拉伯语分段器中使用 -orthoOptions 标志。 -orthoOptions 的参数是以逗号分隔的列表 标准化选项。支持以下选项:这有帮助吗?...
removeDiacritics :删除所有变音符号
removeTatweel : 剥离 tatweel 伸长字符
removeQuranChars :删除古兰经中出现的变音符号
...
尝试以下代码删除阿拉伯语变音符号:
import re
lemma = 'رَائِع'
lemma_without_diacritics = re.sub(r'[\u064b-\u065f]', '', lemma)
print(lemma_without_diacritics) # output: رائع
[\u064b-\u065f]
代表标准阿拉伯语变音符号范围。请参阅
阿拉伯语字符代码表了解更多信息。
您可以使用
pip install hazm
from hazm import *
text = "عِرَاق بَلَد رَائِع"
cleaned = Normalizer().remove_diacritics(text)
print(cleaned)
# عراق بلد رائع