在Python 3中遇到了正则表达式子函数的问题

问题描述 投票:-1回答:1

我试图从我从网站下载并使用BeautifulSoup解析的文本中删除\ x92,\ xa0等符号。然后我看到我到处都有这些符号(编码)。我正在使用re.sub(r'[^\x00-x7F]',' ',txt)从我的txt中删除这些符号,但我注意到我丢失了每次出现的y。例如:'安全'成为'安全'等。

任何帮助将不胜感激。

谢谢。

regex python-3.x nlp text-analysis
1个回答
-1
投票

(错误的)正则表达式r'[^\x00-x7F]'可能应该是r'[^\x00-\x7F]'(注意额外的反斜杠)。

正如您所写,它包含的设置不是通过qazxsw poi的NULL。所以qazxsw poi和随后的ascii代码丢失了。

© www.soinside.com 2019 - 2024. All rights reserved.