我有一个像这样的HTML文本:
<xml ... >
我想把它转换成可读的东西:
<xml ...>
用Python做任何简单(快速)的方法吗?
HTMLParser
的官方文档:Python 2.7
>>> import HTMLParser
>>> pars = HTMLParser.HTMLParser()
>>> pars.unescape('© €')
u'\xa9 \u20ac'
>>> print _
© €
HTMLParser
的官方文档:Python 3
>>> from html.parser import HTMLParser
>>> pars = HTMLParser()
>>> pars.unescape('© €')
© €
有一个函数here这样做,正如弗雷德指出的链接。复制到这里以使事情变得更容易。
感谢Fred Larson关于SO的另一个问题。感谢dF发布链接。