目前,我有:
[re.sub(r'\W', '', i) for i in training_data.loc[:, 'Text']]
然而,有了这个,印地语字符仍然存在,所有空格都被删除。有任何想法吗?
否定可能会有所帮助
import re import string re.sub(f'[^{string.printable}]', '', 'asdf #$שדגכ')