lxml 相关问题

lxml是一个功能齐全的高性能Python库,用于处理XML和HTML。

使用XPath和Python的lxml模块,如何验证节点的路径?哈利·波特

我将 XPath 与 Python 的 lxml 模块一起使用,并具有以下 xml 代码。 哈利·波特 我将 XPath 与 Python 的 lxml 模块一起使用,并具有以下 xml 代码。 <library> <section1> <book> <title>Harry Potter</title> <author>J.K. Rowling</author> </book> </section1> <section2> <book> <title>Sapiens</title> <author>Yuval Noah Harari</author> </book> </section2> </library> 现在我有一些 title 节点:titles = root.xpath('//title')。如何验证标题是否是 xml 根的子节点 section1 的后代?由于某种原因,我必须先获取标题,然后进行验证。像这样的东西: if validation: do_sth() 由于 <library> 是根,文件中的所有内容都是 <library> 的后代,因此没有必要对其进行测试。除此之外,如果您正在寻找 <title> 的后代 <section1>,请尝试: from lxml import etree books = """[your xml above]""" doc = etree.XML(books) for title in doc.xpath('//title[ancestor::section1]'): print(title.text) 这种情况下的输出应该是 Harry Potter

回答 1 投票 0

使用XPath和Python的lxml模块,如何检查节点在特定层次结构级别是否具有特定祖先节点哈利·波特

我将 XPath 与 Python 的 lxml 模块一起使用,并具有以下 xml 代码。 哈利·波特 我将 XPath 与 Python 的 lxml 模块一起使用,并具有以下 xml 代码。 <library> <section1> <book> <title>Harry Potter</title> <author>J.K. Rowling</author> </book> </section1> <section2> <book> <title>Sapiens</title> <author>Yuval Noah Harari</author> </book> </section2> </library> 假设我有一些从 lxml 的 title 方法获得的 .xpath 节点。如何检查其中一些是否有 section1 祖先,它是 library 根节点的子节点? 由于 <library> 是根,文件中的所有内容都是 <library> 的后代,因此没有必要对其进行测试。除此之外,如果您正在寻找 <title> 的后代 <section1>,请尝试: from lxml import etree books = """[your xml above]""" doc = etree.XML(books) for title in doc.xpath('//title[ancestor::section1]'): print(title.text) 这种情况下的输出应该是 Harry Potter

回答 1 投票 0

使用 lxml 解析器的 HTML getnext

我正在尝试解析带有html代码的页面,如下所示: .. 已识别的标题... 我正在尝试解析带有 html 代码的页面,如下所示: <html> .. <h2><span id='identifiedid'>Identified Header<span>...</span></span></h2> <ul> <li><a href='links i want'></a>...</li> <li><a href='links i want'></a>...</li> <li><a href='links i want'></a>...</li> </ul> .. </html> 我正在使用 Python 代码通过 lxml 解析器解析页面。我能够识别使用 xpath 指示的元素的 id。但是,我需要访问的链接没有类/id 来识别它们,而且它们也不在 id 的范围内。有什么办法可以访问相邻元素的这些链接吗?我尝试过 getnext(),但它无法访问 ul 和 li 元素 您可以使用 span 获取 getparent() 的父元素,然后使用 ul 获取 getnext() 元素: root = etree.XML(open("lx.xml").read()) span = root.xpath("//span[@id='identifiedid']")[0] print span.getparent().getnext().xpath('li/a/@href')

回答 1 投票 0

xml.etree.ElementTree.ParseError:XML 库未关闭令牌

当我尝试使用 Python XML 库解析 XML 时,出现以下错误。 xml.etree.ElementTree.ParseError:未关闭的令牌 我正在使用以下代码来解析 xml 字符串。 来自 xml.etree ...

回答 1 投票 0

lxml.etree.tostring 显示空节点的开始和结束标记

从 lxml 导入 etree 树 = etree.XML('') print(etree.tostring(tree, 编码='utf-8').decode('utf-8')) 上面的代码显示了以下内容。 from lxml import etree tree = etree.XML('<foo class="abc"></foo>') print(etree.tostring(tree, encoding='utf-8').decode('utf-8')) 上面的代码显示了以下内容。 <foo class="abc"/> 怎样才能让结果不收缩,而是显示<foo class="abc"></foo>? 使用选项 method='html'。

回答 1 投票 0

如何获取python-pptx中的主题颜色?

简单地说,我想从 ColorFormat 对象中获取 RGB 值,即presentation.slides[0].shapes[0].text_frame.paragraphs.runs[0].color。 如果 color.type == MSO_COLOR_TYPE.SCHEME 那么这意味着 c...

回答 1 投票 0

网页抓取 <td>标签问题 - Python 3 With Lxml

使用 lxml 库在 python 中进行网页抓取。我的代码当前输出一个空列表: 从 lxml 导入 html 导入请求 page = requests.get('www.example.com') 树 = html.fromstring(page.content)

回答 1 投票 0

lxml(xml python 解析器)转到下一个元素

有人知道如何跳转到xml中的下一个元素吗? IE 文字编号2 文字...

回答 1 投票 0

lxml 未更新网页

这里是简单的脚本,我只是想每 15 分钟从网页获取健身房中的人数并将结果保存在文本文件中。但是,脚本正在输出 fi 的结果...

回答 1 投票 0

由于 lxml 的构建轮失败而无法安装 python-docx

Python版本:Python 3.12.3 macOS 索诺玛 14.4.1 我尝试安装 python-docx 并遇到以下有关 lxml 的错误消息。 收集 python-docx 使用缓存的 python_do...

回答 1 投票 0

AttributeError:模块“lxml.html.clean”在 Odoo 17 上没有属性“defs”

我在 MacBook M1 芯片的 Odor 17 项目上安装 lxml 时遇到错误。 首先,在安装requirements.txt时,出现错误。所以我注释掉了requirements.tx中的一些行...

回答 1 投票 0

使用 lxml find() 方法查找 xml 文件中的元素

我的 xml 文件长度超过 100 万行。我可以使用 BeautifulSoup 毫无问题地解析它们,但使用 bs4 进行解析可能需要一分钟或更长时间。我正在尝试使用 lxml 来完成

回答 1 投票 0

Xpath HTML 抓取不返回文本/数字 - 有用的分数

我正在使用 xpath 和 lxml 抓取评论的有用性分数。 #%% 第 1 步:导入所有扩展和包。 从 lxml 导入 html 从 urllib 导入请求 导入请求 从数据来看...

回答 1 投票 0

无法导入模块“lambda_function”:无法从“lxml”aws lambda 导入名称“etree”

我尝试使用aws lambda函数。我需要使用 lxml python 模块。 当我尝试导入时: 从 lxml 导入 html def lambda_handler(事件,上下文): 返回“好的” aws 显示一些错误。

回答 2 投票 0

Xpath HTML 抓取不返回文本/数字

我正在使用 xpath 和 lxml 抓取评论的有用性分数。 #%% 第 1 步:导入所有扩展和包。 从 lxml 导入 html 从 urllib 导入请求 导入请求 从数据来看...

回答 1 投票 0

根据多个兄弟条件选择兄弟节点值,不使用xpath字符串

使用 xpath 查找 xml 节点有多种答案,如下所示。在使用 lxml 的 python 中,是否有更 Pythonic 的方式来构建这个条件列表?我知道我可以使用...构建 xpath 字符串

回答 1 投票 0

lxml 获取没有标签的元素的文本

我正在使用 lxml 库和 python 来解析一个简单的 XML,该 XML 在本例中打印下一个元素的文本 HD,如下面的 XML 所示 有史以来最好的书...

回答 1 投票 0

如何将“用户数据”与 lxml.etree.Element 关联?

我目前正在将一些Python代码从DOM“移植”到lxml.etree,并且遇到了一个障碍:有问题的DOM代码使用Node.setUserData()和Node.getUserData API,但我找不到

回答 1 投票 0

如何在Python中获取没有值字段的textarea值

我正在尝试解析html页面并从文本区域获取值,但我无法实现它,我将放置我的代码(我从selenium开始,但它也不起作用)。我真的不明白这是哪里...

回答 1 投票 0

设置默认命名空间的前缀

我有 XML: 文字-1文字-2 我需要使用 lxml 设置默认命名空间的前缀: ...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.