如何用python将单词与非单词完全分开?为希腊语和希伯来语

问题描述 投票:0回答:1

我想把所有的单词与希腊语和希伯来语中的非单词分开。

我正在使用此代码:

words = re.findall(r'\w+|\S+', text)

结果不那么令人满意,例如:

  • 它分开⸂ἡ⸂ἡῶὶὶὶ⸃⸃⸃⸃ - >()ῶ()(((ὶ)((((((((((((((((((((((((((((((((((((((((((
  • 它不会将⸂ὑπὲρ⸃分离为(⸂)ὑπὲρ(⸃)
  • 对于希伯来语,它也不会将[ὑμῖν]与([](ὑμῖν)(])分开。它将不应该分开的东西分开。
python findall
1个回答
0
投票

感谢您提供的信息,我已经找到了希腊语的解决方案

words = re.findall(r'\ w + | [[]⸂⸃()] | \ S +',text)

但我仍然有希伯来语的问题。如何将这位女神分开呢? (ַ)(אֵ֣לֶּה)(|)(אֲנִ֣י)

© www.soinside.com 2019 - 2024. All rights reserved.