在Python中将字节字符串解码为西里尔语

Question

我有一个像这样的字节字符串，它应该是西里尔字符中的

Сравнение

：

a = b'&#1057;&#1088;&#1072;&#1074;&#1085;&#1077;&#1085;&#1080;&#1077;'

将其解码为 UTF-8 没有帮助：

a = b'&#1057;&#1088;&#1072;&#1074;&#1085;&#1077;&#1085;&#1080;&#1077;'
a.decode("utf-8") # prints same &#1057;&#1088;... string

这是什么编码以及如何解码该字符串？

我正在使用 Google Colab 和 Python 3.10.12。

这个在线解码器应用自动解码后表示必须从UTF-8解码为UTF-8。

Answer 1

您可以使用

html.unescape

：

import html

a = b"&#1057;&#1088;&#1072;&#1074;&#1085;&#1077;&#1085;&#1080;&#1077;"
decoded_string = html.unescape(a.decode("utf-8"))

print(decoded_string)

打印：

Сравнение

在Python中将字节字符串解码为西里尔语

问题描述投票：0回答：1

1个回答

最新问题

在Python中将字节字符串解码为西里尔语

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1