在Python中,我正在解析包含控制字符的XML:
import xml.etree.ElementTree as ET
tree = ET.fromstring('<?xml version="1.1" encoding="UTF-8"?><field>foo  bar</field>')
print(tree.text)
控制字符在XML 1.1中是允许的,但是解析失败。我缺少什么,还是xml.etree.ElementTree不支持这样的控制字符?
至少在Linux上,ElementTree解析器使用系统的expat解析器。 libexpat维护者do not plan to support XML 1.1。
lxml程序包提供了与ElementTree类似的API,它使用libxml2
来解析XML。 libxml2维护者also do not plan to implement XML 1.1(此参考文献很旧,但libxml2 homepage仅参考1.0标准。
您需要找到