\ufeff 标识符中的无效字符

问题描述 投票:0回答:5

我有以下代码:

import urllib.request

try:
    url = "https://www.google.com/search?q=test"

    headers = {}
    usag = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10.6; rv:25.0) Gecko/20100101 Firefox/25.0'
    headers['User-Agent'] = usag.encode('utf-8-sig')
    req = urllib.request.Request(url, headers=headers)
    resp = urllib.request.urlopen(req)
    respData = resp.read()

    saveFile = open('withHeaders.txt','w')
    saveFile.write(str(respData))
    saveFile.close()

except Exception as e:
    print(str(e))

它给了我以下错误:

D:\virtualenv\samples\urllibb>python 1.py
  File "1.py", line 35
    usag = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10.6; rv:25.0) Gecko/20100101 Firefox/25.0'\ufeff
                                                                                              ^
 SyntaxError: invalid character in identifier

虽然我在我的代码中看不到

\ufeff

python python-3.x python-3.4 urllib python-3.3
5个回答
13
投票

\ufeff
零宽度不间断空间代码点;打印时不渲染。它在UTF-16和UTF-32中用作byte order mark来记录编码字节要解码的顺序(big-endian或little-endian)。

UTF-8 不需要 BOM(它只有一个固定的字节顺序,无需跟踪替代方案),但微软认为这是一个方便的 signature 字符,用于他们的工具检测 UTF-8 文件与. 8 位编码(例如大多数 Windows 代码页所采用的)。

我怀疑您正在使用 Microsoft 文本编辑器(例如记事本)来保存您的代码。不要这样做,它会包含 BOM 但 Python 不支持它或将其从 UTF-8 源文件中删除。您可能使用记事本保存了文件,然后继续使用不同的工具向开头添加更多代码,而 BOM 卡在了中间。

要么删除整行和下一行并重新键入它们,要么从您定义的字符串的结束引号中选择直到下一行

h
headers
之前,删除该部分并重新插入换行符和足够的缩进。

如果您的编辑器支持在搜索和替换时使用转义序列(例如,SublimeText 在正则表达式模式下支持),您可以只使用 that 来搜索字符并将其替换为空字符串。在 SublimeText 中,打开正则表达式支持并搜索

\x{feff}
,用空字符串替换这些匹配项。

您在此处使用的 Python

utf-8-sig
编码还包括 BOM:

headers['User-Agent'] = usag.encode('utf-8-sig')

HTTP 标头也不应该 包含该代码点。 HTTP 标头通常坚持使用 Latin-1;即使是 ASCII 在这里也足够了,否则使用

'utf-8'
(没有
-sig
)。

你真的不需要在那里使用

str.encode()
,你可以also只定义一个bytestring:

headers = {}
usag = b'Mozilla/5.0 (Macintosh; Intel Mac OS X 10.6; rv:25.0) Gecko/20100101 Firefox/25.0'
headers['User-Agent'] = usag

注意字符串文字的

b
前缀。


5
投票

简单地说,在 Notepad++ 中打开脚本文件,转到“编码”选项卡,选择“在没有 BOM 的情况下以 UTF-8 编码”并保存文件。


0
投票

对于*nix folk,只需打开文件

[n]vim -b filename

然后

:set list

你会在第一行的开头看到它。由于它的宽度为零,您甚至无法在文本模式下删除它,因此尝试删除该行并粘贴到文本中,以免在 python 中将其删除,并且它仍然存在于文本中的字符 0 之前。


0
投票

在投票最多的答案中,他们建议在 Sublime Text 中使用正则表达式搜索/替换来替换字符。我无法让它工作,但如果你只是“使用编码保存”并选择 UTF-8 而不是带 BOM 的 UTF-8,它会做你需要的。


-1
投票

字符在那里,在

usag = 'Mozilla...
行的结束语之后。

© www.soinside.com 2019 - 2024. All rights reserved.