lxml 相关问题

lxml是一个功能齐全的高性能Python库,用于处理XML和HTML。

如何清理HTML字符串以使用lxml在python中解析它?

我有一个包含HTML代码的python字符串,来自我要使用lxml库解析的JSON。该字符串包含几个转义字符和其他特殊字符。如何清除此代码...

回答 2 投票 0

[使用lxml添加名称空间与根元素不同的xml子元素

这是我要构建的xml的简化版本:

回答 1 投票 0

XPath返回包含字符串值的树中所有唯一元素的列表

我正在尝试设计一些XPath,它将为我提供树中每个元素的列表,该列表包含一些字符串值(任何值,只要它不为空,只要不重复)。如果我可以返回列表...

回答 2 投票 0

XPath collection()函数可用于lxml和XSLT吗?

最近,我尝试使用lxml包和包含XPath collection()函数的变量的XSL样式表转换XML文件,但是在运行代码时出现以下错误:...

回答 1 投票 0

如何使用lxml.html从HTML元素获取文本

我一直在尝试从网页https://www.list-org.com/company/11665809的 元素中托管全文。该元素应包含一个子字符串“Арбитраж”。而且确实如此,...

回答 1 投票 0

如何在Python中使用LXML显示HTML

所以我想要实现的目标非常简单。我想调用python test.py,并想转到我的本地主机并查看html结果。但是,我不断收到错误ValueError:无效的标签...

回答 1 投票 0

将xpath获取到xml的错误元素。 Python,lxml

我正在使用python在lxml软件包的帮助下处理xml文档。 xsd方案用于验证该文档。发生错误时,验证器将引发ParseError,其位置为...

回答 1 投票 -1

如何使用python网络抓取功能在此html中获取公司名称?

我正在yellowpages.com.au上刮擦公司名称,并且备有如何找到正确的元素(div类)以查找所有名称的方法。以下是我的python代码和我要抓取的网址...

回答 1 投票 0

如何从html表中获取文本?

我有一个html: Country, Other Total Customers&...

回答 2 投票 0

自定义元素类查找未加载自定义元素

我正在对一些lxml自定义元素(例如ParentElement,ChildElement)实施测试,这些自定义元素是通过装饰器从自定义查找类(ModelLookup)注册的。 pytest用于运行测试...

回答 2 投票 2

提取两个lxml标记之间的所有内容Python

请考虑以下html片段。 。 。 Hello Text1 ... ...> ] >> 您可以使用Beautiful Soup 4来做到这一点。似乎您想要多个div的内容,因此我将相应地写出我的答案以及其他一些片段以了解用法。我还对您的数据进行了重新格式化(找出所有间隔),以使输出更易理解。 import bs4 HTML = """<html> <div id="some_id"> <p> Hello </p> <div> <b> Text1 </b> <p> This is a huge paragraph text </p> </div> </div> <div> <i> Text2 </i> <a href="https://mknxgn.pro/">Go to website</a> </div> </html>""" soup = bs4.BeautifulSoup(HTML, features="lxml") # Convert the text into soup divs = soup.findAll("div") # Find all divs for div in divs: print("DIV CONTENT:", div, "\n\n") print("DIV TEXT:", div.text) for a in div.findAll("a"): # Find all links in all the divs print("\nLink Found In Div. Link redirects to:", a.get("href"), "- Link text is:", a.text) div = soup.find("div", attrs={"id": "some_id"}) # Find a div with the ID attribute set to "some_id" print(div.text) 输出是这样的: >> DIV CONTENT: <div id="some_id"> >> <p> Hello </p> >> <div> >> <b> >> Text1 >> </b> >> <p> >> This is a huge paragraph text >> </p> >> </div> >> </div> >> DIV CONTENT: <div> # There is more than one div in the code given >> <b> >> Text1 >> </b> >> <p> >> This is a huge paragraph text >> </p> >> </div> >> DIV CONTENT: <div> >> <i> >> Text2 >> </i> >> <a href="https://mknxgn.pro/">Go to website</a> >> </div> >> Link Found In Div. Link redirects to: https://mknxgn.pro/ - Link text is: Go to website 如果您想了解有关beautifulsoup4的更多信息,以及它如何帮助您解析诸如所提供种类的数据。

回答 1 投票 0

在lxml中剥离单个元素

我需要在保留XML数据的同时删除它。 lxml函数strip_tags确实删除了元素,但是它以递归方式工作,我想剥离单个元素。我尝试使用...

回答 1 投票 0

通过XPATH通过LXML获取元素

我正在为Discord.py的Python库编写一个Discord机器人。我不需要帮助,但可以从网站上抓取一些信息。 @ commands.command(aliases = [“ ruby userinfo”])异步定义...

回答 3 投票 1

如何在XML Python中迭代一个以上的节点?

我有这样的XML结构:“”“ [[[[[[[[[[[[[[[[[[[[[[[[ 尽管您的问题与上一个相似,但是这次的问题更加简单明了。您可以先提取数据,然后将其拼写为所需的格式。这是一个例子。 从simple_scrapy导入SimplifiedDoc,req,utilsxml =“”“ <pages> <page> <textbox> <new_line> <text size="12.482">C</text> <text size="12.333">A</text> <text size="12.333">P</text> <text size="12.333">I</text> <text size="12.482">T</text> <text size="12.482">O</text> <text size="12.482">L</text> <text size="12.482">O</text> <text></text> <text size="12.482">I</text> <text size="12.482">I</text> <text size="12.482">I</text> <text></text> </new_line> </textbox> </page> </pages> """ doc = SimplifiedDoc(xml) new_line = doc.new_line lastSize = None lst = [] texts = "" for t in new_line.texts: if not lastSize or t.size==lastSize: texts += t.text lastSize = t.size else: lst.append((lastSize,texts)) texts = t.text if t.size: lastSize = t.size else: lst.append("<text />") lastSize=None print(lst) 重新排序: [('12.482', 'C'), ('12.333', 'API'), ('12.482', 'TOLO'), '<text />', ('12.482', 'III'), '<text />']

回答 1 投票 -3

如何使用Python在XML中的节点之后提取信息?

我具有以下XML结构(非常大的文件,还有更多人条目)

回答 1 投票 1

如何在XML Python中迭代子元素的子元素?

我有一个XML结构,如下: [[[[[[]]

回答 1 投票 -1

我的Amazon scraper随机停止在服务器上工作(带有代理),但在家用PC上与相同的代理一起使用

我的亚马逊刮板工作正常,当我突然发疯时,我开始获取验证码。但是,当我在家用PC上运行脚本时,它运行得很好。在两种情况下,我都使用相同的代理。这个...

回答 1 投票 0


如何在网站上单击CSV按钮并以python下载数据

我正在尝试从以下网站下载CSV和JSON数据:https://worldpopulationreview.com/countries/countries-by-gdp/#worldCountries如何模拟单击csv文件?以...

回答 2 投票 -1

检测段落在XML转换的PDF(Python)中中断]]

我有这个PDF文件,其中包含那些“长”空格(在下图中以黄色突出显示)。我的目标是检测它们,以便我可以将这些空格周围的文本段分开。到目前为止,我的...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.