如何（手动）编辑元素树的xml格式

Question

假设我有2个这样的XML文件：

version1.xml：

<object>
    <name>boat</name>
    <pose>Unspecified</pose>
    <truncated>0</truncated>
    <difficult>0</difficult>
    <bndbox>
        <xmin>0</xmin>
        <ymin>434</ymin>
        <xmax>152</xmax>
        <ymax>504</ymax>
    </bndbox>
</object>

version2.xml：

<object><name>boat</name><pose>Unspecified</pose><truncated>0</truncated><difficult>0</difficult><bndbox><xmin>0</xmin><ymin>434</ymin><xmax>152</xmax><ymax>504</ymax></bndbox></object>

它们之间的唯一区别是空白，这使得第一个空间更具人性化。我试图找到如何将第二个转换为第一个格式。

我知道我可以使用一些解决方法，比如使用这个GitHub gist中的这个函数（我在其他场合也有）：

from xml.dom import minidom
from xml.etree import ElementTree


def prettify(elem):
    """
    Return a pretty-printed XML string for the Element.
    """
    rough_string = ElementTree.tostring(elem, 'utf-8')
    reparsed = minidom.parseString(rough_string)
    return reparsed.toprettyxml(indent='  ')

但我不是在寻找这个（我的需求涉及一个部分格式化的XML，它不能与上面的函数完美配合）。

如果我检查每个元素的文本差异，我得到这个：

import xml.etree.ElementTree as ET

xml_path1 = 'path/to/version1.xml'
xml_path2 = 'path/to/version2.xml'
tree1 = ET.parse(xml_path1)
annot1 = tree1.getroot()
tree2 = ET.parse(xml_path2)
annot2 = tree2.getroot()

for elem1, elem2 in zip(annot1.iter(), annot2.iter()):
    if repr(elem1.text) != repr(elem2.text):
        print(elem1, repr(elem1.text), elem2, repr(elem2.text))

输出：

<Element 'object' at 0x7fb26fc2d9f8> '\n\t' <Element 'object' at 0x7fb1c4e4da48> None
<Element 'bndbox' at 0x7fb1c4e4d8b8> '\n\t\t' <Element 'bndbox' at 0x7fb1c4e4dbd8> None

如果我将指定的文本更改为相应的版本1文本，当然，它确实将格式更改为受影响的元素，但它确实如此。

ET.dump(annot2)

输出：

<object>
    <name>boat</name><pose>Unspecified</pose><truncated>0</truncated><difficult>0</difficult><bndbox>
        <xmin>0</xmin><ymin>434</ymin><xmax>152</xmax><ymax>504</ymax></bndbox></object>

理想的输出当然是：

ET.dump(annot1)

输出：

<object>
    <name>boat</name>
    <pose>Unspecified</pose>
    <truncated>0</truncated>
    <difficult>0</difficult>
    <bndbox>
        <xmin>0</xmin>
        <ymin>434</ymin>
        <xmax>152</xmax>
        <ymax>504</ymax>
    </bndbox>
</object>

那么，格式化的处理是什么？我知道它实际上并没有影响XML的内容（机器认为内容与我想的相同）但是Element Tree保存这些信息的地方就是我。

有没有（硬的，可能没有效率的）方法来控制XML的格式？
为什么包含像xmin这样的实际值的元素在我的情况下只显示这个值并隐藏格式化文本，而其他像bndbox实际上封装其他子元素会显示这些格式化字符串？

Answer 1

丢失的空白位于Element.tail（docs）。

生成输出时，ElementTree打印起始元素，内容，结束元素，然后打印尾部。

这是一个格式化子树的技巧（并保留文档的其余部分）：

使用上面的技巧打印子树
转换为字符串
用"\n"替换字符串中的"\n" + (" "*level)，其中level是子树的深度。
使用ETree将字符串解析为文档，并将子树替换为新文档的根元素。

或者，您可以通过将子树包装在level包装元素中来创建新文档，然后打印整个文档，然后再次找到子树。

如何（手动）编辑元素树的xml格式

问题描述投票：0回答：1

1个回答

最新问题

如何（手动）编辑元素树的xml格式

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1