\ufeff 标识符中的无效字符

Question

我有以下代码：

import urllib.request

try:
    url = "https://www.google.com/search?q=test"

    headers = {}
    usag = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10.6; rv:25.0) Gecko/20100101 Firefox/25.0'
    headers['User-Agent'] = usag.encode('utf-8-sig')
    req = urllib.request.Request(url, headers=headers)
    resp = urllib.request.urlopen(req)
    respData = resp.read()

    saveFile = open('withHeaders.txt','w')
    saveFile.write(str(respData))
    saveFile.close()

except Exception as e:
    print(str(e))

它给了我以下错误：

D:\virtualenv\samples\urllibb>python 1.py
  File "1.py", line 35
    usag = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10.6; rv:25.0) Gecko/20100101 Firefox/25.0'\ufeff
                                                                                              ^
 SyntaxError: invalid character in identifier

虽然我在我的代码中看不到

\ufeff

。

Answer 1

\ufeff

是零宽度不间断空间代码点；打印时不渲染。它在UTF-16和UTF-32中用作byte order mark来记录编码字节要解码的顺序（big-endian或little-endian）。

UTF-8 不需要 BOM（它只有一个固定的字节顺序，无需跟踪替代方案），但微软认为这是一个方便的 signature 字符，用于他们的工具检测 UTF-8 文件与. 8 位编码（例如大多数 Windows 代码页所采用的）。

我怀疑您正在使用 Microsoft 文本编辑器（例如记事本）来保存您的代码。不要这样做，它会包含 BOM 但 Python 不支持它或将其从 UTF-8 源文件中删除。您可能使用记事本保存了文件，然后继续使用不同的工具向开头添加更多代码，而 BOM 卡在了中间。

要么删除整行和下一行并重新键入它们，要么从您定义的字符串的结束引号中选择直到下一行

的

headers

之前，删除该部分并重新插入换行符和足够的缩进。

如果您的编辑器支持在搜索和替换时使用转义序列（例如，SublimeText 在正则表达式模式下支持），您可以只使用 that 来搜索字符并将其替换为空字符串。在 SublimeText 中，打开正则表达式支持并搜索

\x{feff}

，用空字符串替换这些匹配项。

您在此处使用的 Python

utf-8-sig

编码还包括 BOM：

headers['User-Agent'] = usag.encode('utf-8-sig')

HTTP 标头也不应该不包含该代码点。 HTTP 标头通常坚持使用 Latin-1；即使是 ASCII 在这里也足够了，否则使用

'utf-8'

（没有

-sig

）。

你真的不需要在那里使用

str.encode()

，你可以also只定义一个bytestring：

headers = {}
usag = b'Mozilla/5.0 (Macintosh; Intel Mac OS X 10.6; rv:25.0) Gecko/20100101 Firefox/25.0'
headers['User-Agent'] = usag

注意字符串文字的

前缀。

Answer 2

简单地说，在 Notepad++ 中打开脚本文件，转到“编码”选项卡，选择“在没有 BOM 的情况下以 UTF-8 编码”并保存文件。

Answer 3

对于*nix folk，只需打开文件

[n]vim -b filename

然后

:set list

你会在第一行的开头看到它。由于它的宽度为零，您甚至无法在文本模式下删除它，因此尝试删除该行并粘贴到文本中，以免在 python 中将其删除，并且它仍然存在于文本中的字符 0 之前。

Answer 4

在投票最多的答案中，他们建议在 Sublime Text 中使用正则表达式搜索/替换来替换字符。我无法让它工作，但如果你只是“使用编码保存”并选择 UTF-8 而不是带 BOM 的 UTF-8，它会做你需要的。

Answer 5

字符在那里，在

usag = 'Mozilla...

行的结束语之后。

\ufeff 标识符中的无效字符

问题描述投票：0回答：5

5个回答

最新问题

\ufeff 标识符中的无效字符

问题描述 投票：0回答：5

5个回答

最新问题

问题描述投票：0回答：5