用Python 2.6中的相应utf-8字符替换html实体

问题描述 投票:13回答:2

我有一个像这样的HTML文本:

<xml ... >

我想把它转换成可读的东西:

<xml ...>

用Python做任何简单(快速)的方法吗?

python html-entities python-2.6
2个回答
21
投票

Python 2.7

HTMLParser的官方文档:Python 2.7

>>> import HTMLParser
>>> pars = HTMLParser.HTMLParser()
>>> pars.unescape('&copy; &euro;')
u'\xa9 \u20ac'
>>> print _
© €

Python 3

HTMLParser的官方文档:Python 3

>>> from html.parser import HTMLParser
>>> pars = HTMLParser()
>>> pars.unescape('&copy; &euro;')
© €

1
投票

有一个函数here这样做,正如弗雷德指出的链接。复制到这里以使事情变得更容易。

感谢Fred Larson关于SO的另一个问题。感谢dF发布链接。

© www.soinside.com 2019 - 2024. All rights reserved.