我有一些垃圾数据:
trueText = ' 23 Wolkenvelden en lokaal wat regen. In de ochtend op steeds meer plaatsen droog en 24 zon. In de avond kans op onweer,met name in Zeeland. 22 20 23 = max. temp. vandaag '
我想删除
字符之间的数字,因为这没有用。有时文本中可能有数字,所以我只想删除
字符之间的数字。
我自己尝试过一些事情:
trueText = re.sub('[^]+', ' ', trueText)
这将删除
字符之间的所有内容。我想我必须使用 \d
序列,但我似乎无法正确理解语法。
您可以使用
删除匹配值中的所有数字trueText = re.sub('[^]+', lambda x: ''.join(c for c in x.group() if not c.isdigit()), trueText)
查看 Python 演示:
import re
trueText = ' 23 Wolkenvelden en lokaal wat regen. In de ochtend op steeds meer plaatsen droog en 24 zon. In de avond kans op onweer,met name in Zeeland. 22 20 23 = max. temp. vandaag '
print(re.sub('[^]+', lambda x: ''.join(c for c in x.group() if not c.isdigit()), trueText))
输出:
Wolkenvelden en lokaal wat regen. In de ochtend op steeds meer plaatsen droog en zon. In de avond kans op onweer,met name in Zeeland. = max. temp. vandaag