为什么在 Python 3 中字节与 str 的比较失败？

Question

在 Python 3 中，此表达式的计算结果为

False

:

b"" == ""

虽然在 Python 2 中这个比较是

True

：

u"" == ""

在这两种情况下，用

is

检查身份显然都失败了。

但是他们为什么要在 Python 3 中实现这样的行为？

Answer 1

在 Python 3 中，字符串是 Unicode。用于保存文本的类型是

str

，用于保存数据的类型是

bytes

.

str
和
bytes
类型不能混合，您必须始终在它们之间显式转换。使用
str.encode()
从
str
到
bytes
，使用
bytes.decode()
从字节到
str
.

因此，如果你这样做

b"".decode() == ""

，你会得到

True

：

>>> b"".decode() == ""
True

Answer 2

在 Python 2.x 中，Unicode 的设计目标是通过在 Unicode 和字节串之间进行隐式转换，实现两种类型之间的透明操作。

当你做比较

u"" == ""

时， Unicode LHS 先被自动编码成字节串，然后与

str

RHS 进行比较。这就是它返回

True

.

的原因

相比之下，Python 3.x 从 Python 2 中的 Unicode 混乱中吸取了教训，决定将有关 Unicode 与字节字符串的所有内容都明确化。因此，

b"" == ""

是

False

因为字节串不再自动转换为 Unicode 进行比较。

Answer 3

设计者决定在将字节与字符串进行比较时不采用强制编码，因此它属于 Python 3.x 的默认行为，即包含不同类型的比较失败。