我试图从我从网站下载并使用BeautifulSoup解析的文本中删除\ x92,\ xa0等符号。然后我看到我到处都有这些符号(编码)。我正在使用re.sub(r'[^\x00-x7F]',' ',txt)
从我的txt
中删除这些符号,但我注意到我丢失了每次出现的y
。例如:'安全'成为'安全'等。
任何帮助将不胜感激。
谢谢。
(错误的)正则表达式r'[^\x00-x7F]'
可能应该是r'[^\x00-\x7F]'
(注意额外的反斜杠)。
正如您所写,它包含的设置不是通过qazxsw poi的NULL。所以qazxsw poi和随后的ascii代码丢失了。