lxml 相关问题

lxml是一个功能齐全的高性能Python库,用于处理XML和HTML。

在lxml Python 3中如何递归所有链接的ids

我有这样的xml: [[[[ ]]]] 尝试以下代码: from lxml import etree as et parser = et.XMLParser(remove_blank_text=True) tree = et.parse('Input.xml', parser) root = tree.getroot() cidList = ['title001'] # Your source list cidDct = { x: 0 for x in cidList } for elem in root.iter('content'): cid = elem.attrib.get('content-id', '') # print(f'{elem.tag:15} {cid}') if cid in cidDct.keys(): # print(f'Found: {cid}') for elem2 in elem.iter(): cid2 = elem2.attrib.get('content-id', '') if len(cid2) > 0: # print(f'Add: {cid2}') cidDct[cid2] = 0 对于测试,您可以在上面取消注释打印输出。 现在打印list(cidDct.keys())时,将得到想要 ids :['title001', 'Number1', 'Number2', 'Number1b']

回答 1 投票 0

从html / json页面提取特定部分的最佳方法?

我具有从python请求返回的以下内容:{“ error”:{“ ErrorMessage”:“

回答 2 投票 1

Lxml获取所有项目,但也要测试下一个-Python

我在尝试解析此lxml时遇到麻烦。我正在使用python语言3.6.9。是这样的。 ...

回答 1 投票 0

TypeError:类型'lxml.etree._ElementTree'的对象没有len()

我正在尝试删除Python函数返回的XML文件中的一些空文本标签,但出现此错误:TypeError:类型为'lxml.etree._ElementTree'的对象没有len()。为什么?这是...

回答 1 投票 0

如何在XML中删除仅包含空格的空XML标记?

我需要删除这样的情况: 我有在没有空格的情况下可以工作的代码,但是如果有空格怎么办?代码:doc = etree.XML(“”“ [

回答 1 投票 0

不正确的父元素lxml

我正在用Python实现网络抓取程序。考虑下面的HTML代码段。 HelloWorld HiThere

回答 1 投票 0

如何在python中使用xpath在源代码中获取图像src url

因此,我正在开发一个程序,以从站点下载一些图像,而且我必须以某种方式获取img标签的“ src”部分。我可以用硒来做到这一点,但是我不得不修改代码,现在我是...

回答 1 投票 0

如何使用python 3将xml序言包含到xml文件中?

我想在我的XML文件中包括XML序言...我尝试了以下操作-ET.tostring(root,encoding ='utf8',method ='xml')但它仅在打印时有效,不适用于写入文件。我有一个...

回答 1 投票 0

我将如何抓取这些嵌套的img标签?

我正在从标题中抓取该网站,并且还尝试抓取图像以及标题。原来是在抓取时返回以下数据:

回答 1 投票 0

BeautifulSoup不显示内容

我想从MCX印度网站抓取现货价格数据。在检查元素时可见的HTML脚本如下: ]]] 好像表格中的数据似乎是通过JavaScript上传的。 这就是为什么,如果您尝试使用'Requests'库获取此信息,则不会在返回时接收表的数据。 “请求”根本不支持JS。 要抓取JS驱动的数据,请考虑使用'Selenium'和chromedriver。这种情况下的解决方案如下所示: # import libraries from bs4 import BeautifulSoup from selenium import webdriver # create a webdriver chromedriver_path = 'C:\\path\\to\\chromedriver.exe' driver = webdriver.Chrome(chromedriver_path) # go to the page and get its source driver.get('http://www.mcxindia.com/market-data/spot-market-price') soup = BeautifulSoup(driver.page_source, 'html.parser') # fetch mentioned data table = soup.find('table', {'id': 'tblSMP'}) for tr in table.tbody.find_all('tr'): row = [td.text for td in tr.find_all('td')] print(row) # close the webdriver driver.quit() 以上脚本的输出为: ['ALMOND', '1 KGS', 'DELHI', '558.00', '='] ['ALUMINIUM', '1 KGS', 'THANE', '137.60', '='] ['CARDAMOM', '1 KGS', 'VANDANMEDU', '2,525.00', '='] ['CASTORSEED', '100 KGS', 'DEESA', '3,626.00', '▼'] ['CHANA', '100 KGS', 'DELHI', '4,163.00', '▲'] ['COPPER', '1 KGS', 'THANE', '388.30', '='] ['COTTON', '1 BALES', 'RAJKOT', '15,790.00', '▲'] ['CPO', '10 KGS', 'KANDLA', '630.10', '▼'] ['CRUDEOIL', '1 BBL', 'MUMBAI', '2,418.00', '▲'] ['GOLD', '10 GRMS', 'AHMEDABAD', '40,989.00', '='] ['GOLDGUINEA', '8 GRMS', 'AHMEDABAD', '32,923.00', '='] ['GOLDM', '10 GRMS', 'AHMEDABAD', '40,989.00', '='] ['GOLDPETAL', '1 GRMS', 'MUMBAI', '4,129.00', '='] ['GUARGUM', '100 KGS', 'JODHPUR', '5,880.00', '='] ['GUARSEED', '100 KGS', 'JODHPUR', '3,660.00', '='] 让我知道是否有不清楚的地方。

回答 1 投票 0

如何使用lxml提取XML元素的上下文

给定以下数据结构(Journal Article Tag Suite,JATS),我想提取PubMed Central论文的引文上下文: 这是一个句子。这是一个引用句子[ ] >> 根据我的收集,您可以从xml中提取引用ID。 引文列在<ref id="some ID">下xml文件的底部 您可以利用Beautiful Soup来基于参考ID轻松找到数据。 https://www.crummy.com/software/BeautifulSoup/bs4/doc/ from bs4 import BeautifulSoup fName = 'PMC1914234.xml' rid = 'CR2' with open(fName) as f: soup = BeautifulSoup(f, "xml") rid_2 = soup.find(id=rid) print(rid_2) article_title = rid_2.find('article-title') print(article_title.text) # >>> A candidate genetic risk factor for vascular disease: a common mutation in methylenetetrahydrofolate reductase 这是您想要的吗? : import elementpath import xml.etree.ElementTree as ET root = ET.parse('PMC1914234.xml').getroot() for ent in root.findall(".//xref[@rid='CR1']"): print({ent.attrib['rid']:ent.tail}) {'CR1': ']. However, when these pathways are deranged because of genetic mutations of enzymes involved or relative deficiencies of folate, vitamin B6 or vitamin B12, the serum concentration of Hcy increases [\n '} 您可能必须使用正则表达式进行一些清理

回答 2 投票 0

使用python将特定节点从xml文件复制到新节点中

我是python的新手,正在尝试将xml文件中的特定部分复制到我创建的新部分中。这是我的原始XML文件,名为“ doc.xml” &...

回答 2 投票 0

如何使用lxml获取跨度数据

我正在尝试从Bloombergs网站获取价格变化数据,但我似乎无法获取该信息。导入请求将lxml.html导入为lx bb ='https://www.bloomberg.com/quote/AAPL:US'结果= ...

回答 1 投票 1

HTML:在Python 3中将iso-8859-1编码的智能引号转换为简单引号

[我正在尝试使用Python 3解析和清理HTML文件。我使用的是BeautifulSoup的get_text方法,将lxml作为解析器(以及urllib等。)给定的文本与iso-8859- 1 ...

回答 1 投票 0

我总是一无所获。而且类名似乎很奇怪。视图源代码与检查元素的东西有所不同]

BS4很奇怪。有时它返回的代码与页面上的代码不同...它会根据源代码对其进行更改。尝试使用硒。它的工作原理非常出色,并且比bs4具有更多的用途。最重要的是...在网站上查找元素非常容易。

回答 2 投票 0

为什么python lxml etree xpath返回多个元素?

我正在python3中使用lxml etree,我的xpath表达式是这样的,并且能够在xhtml中找到我要查找的元素。根= tree.getroot()映射= {'epub':'http://www.idpf.org/2007 / ...

回答 1 投票 0

问题是否包含utf-16编码的xml文件?

我正在处理一些我想用python解析的xml文件。为此,我尝试使用以下模块之一将lxml.etree导入为etree或将xml.etree.ElementTree导入为ET,但同时使用I ...

回答 1 投票 0

如何清理HTML字符串以使用lxml在python中解析它?

我有一个包含HTML代码的python字符串,来自我要使用lxml库解析的JSON。该字符串包含几个转义字符和其他特殊字符。如何清除此代码...

回答 2 投票 0

[使用lxml添加名称空间与根元素不同的xml子元素

这是我要构建的xml的简化版本:

回答 1 投票 0

XPath返回包含字符串值的树中所有唯一元素的列表

我正在尝试设计一些XPath,它将为我提供树中每个元素的列表,该列表包含一些字符串值(任何值,只要它不为空,只要不重复)。如果我可以返回列表...

回答 2 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.