我想把所有的单词与希腊语和希伯来语中的非单词分开。
我正在使用此代码:
words = re.findall(r'\w+|\S+', text)
结果不那么令人满意,例如:
感谢您提供的信息,我已经找到了希腊语的解决方案
words = re.findall(r'\ w + | [[]⸂⸃()] | \ S +',text)
但我仍然有希伯来语的问题。如何将这位女神分开呢? (ַ)(אֵ֣לֶּה)(|)(אֲנִ֣י)