目前我正在编辑XML文档,我需要编辑一些标签和它们的属性。到目前为止,我使用的是 ElementTree
库,但是我遇到了保存名字空间的问题,所以我试图重写我的脚本,使用 lxml
. ElementTree
然而对我来说,在遍历文档标签的情况下是非常合理的。下面作为一个例子,我将提供一些代码,这些代码将去除 Ext
标签,并修改 Resolution
将标签文字改为不同的值。
ElementTree。
namespaces = dict([elem for _, elem in ET.iterparse(adiPath, events=['start-ns'])])
for ns in namespaces:
ET.register_namespace(ns, namespaces[ns])
for asset in root.findall('.//{*}Asset'):
if 'title:TitleType' in asset.attrib.values():
ext = asset.find('.//{*}Ext')
if ext != None:
asset.remove(ext)
if 'content:PreviewType' in asset.attrib.values():
resolution = asset.find(".//{*}Resolution")
resolution.text = 'different value'
是否可以用类似于上面提到的方式来迭代XML文件,但是不需要用 "元素树"。ET
使用 lxml
?
XML文件。
<?xml version="1.0" encoding="utf-8"?>
<ADI3 xmlns="urn:cablelabs:md:xsd:core:3.0"
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xmlns:content="urn:cablelabs:md:xsd:content:3.0"
xmlns:core="urn:cablelabs:md:xsd:core:3.0"
xmlns:offer="urn:cablelabs:md:xsd:offer:3.0"
xmlns:terms="urn:cablelabs:md:xsd:terms:3.0"
xmlns:title="urn:cablelabs:md:xsd:title:3.0"
xmlns:adb="urn:adb:md:xsd:adb:01"
xmlns:schemaLocation="urn:adb:md:xsd:adb:01 ADB-EXT-C01.xsd urn:cablelabs:md:xsd:core:3.0 MD-SP-CORE-C01.xsd urn:cablelabs:md:xsd:content:3.0 MD-SP-CONTENT-C01.xsd urn:cablelabs:md:xsd:offer:3.0 MD-SP-OFFER-C01.xsd urn:cablelabs:md:xsd:terms:3.0 MD-SP-TERMS-C01.xsd urn:cablelabs:md:xsd:title:3.0 MD-SP-TITLE-C01.xsd"
xmlns:xml="http://www.w3.org/XML/1998/namespace">
<Asset xsi:type="title:TitleType" uriId="ID" providerVersionNum="5"
internalVersionNum="0" creationDateTime="2020-04-22T00:00:00Z"
startDateTime="2020-03-24T09:00:00Z" endDateTime="2022-10-06T23:59:00Z">
<AlternateId identifierSystem="VOD1.1">ID</AlternateId>
<ProviderQAContact>Contact</ProviderQAContact>
<Ext>
<adb:ExtensionType>
<adb:TitleExt>
<adb:SeriesInfo episodeNumber="16">
<adb:series seriesId="106585" seasonCount="2"/>
<adb:season seasonId="106586" number="1" episodeCount="22"/>
</adb:SeriesInfo>
</adb:TitleExt>
</adb:ExtensionType>
</Ext>
<title:LocalizableTitle xml:lang="pol">
<title:TitleLong>BATWOMAN EP. 16 - THROUGH THE LOOKING GLASS</title:TitleLong>
<title:SummaryLong> Very long summary...</title:SummaryLong>
<title:Actor fullName="Ruby Rose" firstName="Ruby" lastName="Rose"/>
<title:Actor fullName="Rachel Skarsten" firstName="Rachel" lastName="Skarsten"/>
<title:Actor fullName="Meagan Tandy" firstName="Meagan" lastName="Tandy"/>
<title:Actor fullName="Camrus Johnson" firstName="Camrus" lastName="Johnson"/>
<title:Director fullName="Sudz Sutherland" firstName="Sudz" lastName="Sutherland"/>
</title:LocalizableTitle>
<title:Rating ratingSystem="PL">12</title:Rating>
<title:DisplayRunTime>00:40</title:DisplayRunTime>
<title:Year>2019</title:Year>
<title:CountryOfOrigin>US</title:CountryOfOrigin>
<title:Genre>Genre</title:Genre>
<title:ShowType>Movie</title:ShowType>
</Asset>
<Asset xsi:type="offer:CategoryType" uriId="ID">
<AlternateId identifierSystem="VOD1.1">ID</AlternateId>
<offer:CategoryPath>Path</offer:CategoryPath>
</Asset>
<Asset xsi:type="content:MovieType" uriId="namemp4">
<AlternateId identifierSystem="VOD1.1">namemp4</AlternateId>
<content:SourceUrl>name.mp4</content:SourceUrl>
<content:Resolution>resolution</content:Resolution>
<content:Duration>PT0H40M40S</content:Duration>
<content:Language>pol</content:Language>
<content:SubtitleLanguage>pol</content:SubtitleLanguage>
<content:SubtitleLanguage>eng</content:SubtitleLanguage>
</Asset>
<Asset uriId="ID" xsi:type="content:MovieType">
<AlternateId identifierSystem="VOD1.1">ID</AlternateId>
<Provider>Prov</Provider>
<content:SourceUrl>sub.srt</content:SourceUrl>
</Asset>
<Asset uriId="ID" xsi:type="content:MovieType">
<AlternateId identifierSystem="VOD1.1">ID</AlternateId>
<Provider>Prov</Provider>
<content:SourceUrl>sub.srt</content:SourceUrl>
</Asset>
<Asset xsi:type="content:PosterType" uriId="ID">
<AlternateId identifierSystem="VOD1.1">ID</AlternateId>
<content:SourceUrl>poster.jpg</content:SourceUrl>
<content:X_Resolution>700</content:X_Resolution>
<content:Y_Resolution>1000</content:Y_Resolution>
<content:Language>pol</content:Language>
</Asset>
<Asset xsi:type="offer:ContentGroupType" uriId="ID">
<AlternateId identifierSystem="VOD1.1">ID</AlternateId>
<offer:TitleRef uriId="ID"/>
<offer:MovieRef uriId="namets"/>
<offer:MovieRef uriId="subs"/>
<offer:MovieRef uriId="subs"/>
</Asset>
<Asset xsi:type="offer:ContentGroupType" uriId="ID">
<AlternateId identifierSystem="VOD1.1">ID</AlternateId>
<offer:TitleRef uriId="ID"/>
<offer:MovieRef uriId="poster"/>
</Asset>
</ADI3>
关于你的输入文档的观察。
xmlns="..."
)作为 urn:cablelabs:md:xsd:core:3.0
.xmlns:core="urn:cablelabs:md:xsd:core:3.0"
).xmlns:schemaLocation
是错误的,应该是 xsi:schemaLocation
.urn:cablelabs:md:xsd:terms:3.0
)根本就没有使用。当你读取这个文档并再次写入时,就像你的代码示例所做的那样,所有的信息都被保留下来。
但是不能保证输出文档是输入文档的逐字拷贝。这不是XML的工作方式,而且这是一个不合理的期望。 重要的保证是输出文档是...。语义上 相当于输入文档。
当你的代码运行时,它会产生这样的输出(节选)。
<core:ADI3
xmlns:adb="urn:adb:md:xsd:adb:01"
xmlns:content="urn:cablelabs:md:xsd:content:3.0"
xmlns:core="urn:cablelabs:md:xsd:core:3.0"
xmlns:offer="urn:cablelabs:md:xsd:offer:3.0"
xmlns:title="urn:cablelabs:md:xsd:title:3.0"
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
>
<core:Asset xsi:type="title:TitleType" uriId="ID" providerVersionNum="5" internalVersionNum="0" creationDateTime="2020-04-22T00:00:00Z" startDateTime="2020-03-24T09:00:00Z" endDateTime="2022-10-06T23:59:00Z">
<core:AlternateId identifierSystem="VOD1.1">ID</core:AlternateId>
<!-- ... -->
</core:Asset>
</core:ADI3>
The ADI3
元素还在 urn:cablelabs:md:xsd:core:3.0
命名空间,和以前一样。不管是通过默认的命名空间还是通过显式的前缀来实现,这都是无关紧要的。ElementTree知道这个命名空间有一个前缀--"core"--并决定使用它。这并没有错,还是一样的道理。
命名空间 urn:cablelabs:md:xsd:terms:3.0
("条款")在输出中缺失,因为它在输入中未被使用,保留未使用的声明是没有意义的。
同样的事情也适用于 "schemaLocation"--因为你把它写成了一个命名空间声明(xmlns:schemaLocation
),ElementTree看到这个 "命名空间 "未被使用,于是将其剥离。正确的做法是在属性中加入一个命名空间(xsi:schemaLocation
). 当你纠正了这个错误后,这一项会留在输出中。
综上所述。你没有问题。输出的文档是一样的。