我有以下代码:
import urllib.request
try:
url = "https://www.google.com/search?q=test"
headers = {}
usag = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10.6; rv:25.0) Gecko/20100101 Firefox/25.0'
headers['User-Agent'] = usag.encode('utf-8-sig')
req = urllib.request.Request(url, headers=headers)
resp = urllib.request.urlopen(req)
respData = resp.read()
saveFile = open('withHeaders.txt','w')
saveFile.write(str(respData))
saveFile.close()
except Exception as e:
print(str(e))
它给了我以下错误:
D:\virtualenv\samples\urllibb>python 1.py
File "1.py", line 35
usag = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10.6; rv:25.0) Gecko/20100101 Firefox/25.0'\ufeff
^
SyntaxError: invalid character in identifier
虽然我在我的代码中看不到
\ufeff
。
\ufeff
是零宽度不间断空间代码点;打印时不渲染。它在UTF-16和UTF-32中用作byte order mark来记录编码字节要解码的顺序(big-endian或little-endian)。
UTF-8 不需要 BOM(它只有一个固定的字节顺序,无需跟踪替代方案),但微软认为这是一个方便的 signature 字符,用于他们的工具检测 UTF-8 文件与. 8 位编码(例如大多数 Windows 代码页所采用的)。
我怀疑您正在使用 Microsoft 文本编辑器(例如记事本)来保存您的代码。不要这样做,它会包含 BOM 但 Python 不支持它或将其从 UTF-8 源文件中删除。您可能使用记事本保存了文件,然后继续使用不同的工具向开头添加更多代码,而 BOM 卡在了中间。
要么删除整行和下一行并重新键入它们,要么从您定义的字符串的结束引号中选择直到下一行
h
的headers
之前,删除该部分并重新插入换行符和足够的缩进。
如果您的编辑器支持在搜索和替换时使用转义序列(例如,SublimeText 在正则表达式模式下支持),您可以只使用 that 来搜索字符并将其替换为空字符串。在 SublimeText 中,打开正则表达式支持并搜索
\x{feff}
,用空字符串替换这些匹配项。
您在此处使用的 Python
utf-8-sig
编码还包括 BOM:
headers['User-Agent'] = usag.encode('utf-8-sig')
HTTP 标头也不应该不 包含该代码点。 HTTP 标头通常坚持使用 Latin-1;即使是 ASCII 在这里也足够了,否则使用
'utf-8'
(没有-sig
)。
你真的不需要在那里使用
str.encode()
,你可以also只定义一个bytestring:
headers = {}
usag = b'Mozilla/5.0 (Macintosh; Intel Mac OS X 10.6; rv:25.0) Gecko/20100101 Firefox/25.0'
headers['User-Agent'] = usag
注意字符串文字的
b
前缀。
简单地说,在 Notepad++ 中打开脚本文件,转到“编码”选项卡,选择“在没有 BOM 的情况下以 UTF-8 编码”并保存文件。
对于*nix folk,只需打开文件
[n]vim -b filename
然后
:set list
你会在第一行的开头看到它。由于它的宽度为零,您甚至无法在文本模式下删除它,因此尝试删除该行并粘贴到文本中,以免在 python 中将其删除,并且它仍然存在于文本中的字符 0 之前。
字符在那里,在
usag = 'Mozilla...
行的结束语之后。