lxml 相关问题

我有这样的xml： [[[[ ]]]] 尝试以下代码： from lxml import etree as et parser = et.XMLParser(remove_blank_text=True) tree = et.parse('Input.xml', parser) root = tree.getroot() cidList = ['title001'] # Your source list cidDct = { x: 0 for x in cidList } for elem in root.iter('content'): cid = elem.attrib.get('content-id', '') # print(f'{elem.tag:15} {cid}') if cid in cidDct.keys(): # print(f'Found: {cid}') for elem2 in elem.iter(): cid2 = elem2.attrib.get('content-id', '') if len(cid2) > 0: # print(f'Add: {cid2}') cidDct[cid2] = 0 对于测试，您可以在上面取消注释打印输出。现在打印list(cidDct.keys())时，将得到想要 ids ：['title001', 'Number1', 'Number2', 'Number1b']

python-3.x recursion xml-parsing lxml

回答 1 投票 0

从html / json页面提取特定部分的最佳方法？

我具有从python请求返回的以下内容：{“ error”：{“ ErrorMessage”：“

python html json beautifulsoup lxml

回答 2 投票 1

Lxml获取所有项目，但也要测试下一个-Python

我在尝试解析此lxml时遇到麻烦。我正在使用python语言3.6.9。是这样的。 ...

python parsing lxml

回答 1 投票 0

TypeError：类型'lxml.etree._ElementTree'的对象没有len（）

我正在尝试删除Python函数返回的XML文件中的一些空文本标签，但出现此错误：TypeError：类型为'lxml.etree._ElementTree'的对象没有len（）。为什么？这是...

python python-3.x beautifulsoup lxml elementtree

回答 1 投票 0

如何在XML中删除仅包含空格的空XML标记？

我需要删除这样的情况：我有在没有空格的情况下可以工作的代码，但是如果有空格怎么办？代码：doc = etree.XML（“”“ [

python python-3.x xml lxml elementtree

回答 1 投票 0

不正确的父元素lxml

我正在用Python实现网络抓取程序。考虑下面的HTML代码段。 HelloWorld HiThere

python web-scraping lxml

回答 1 投票 0

如何在python中使用xpath在源代码中获取图像src url

因此，我正在开发一个程序，以从站点下载一些图像，而且我必须以某种方式获取img标签的“ src”部分。我可以用硒来做到这一点，但是我不得不修改代码，现在我是...

python html xpath beautifulsoup lxml

回答 1 投票 0

如何使用python 3将xml序言包含到xml文件中？

我想在我的XML文件中包括XML序言...我尝试了以下操作-ET.tostring（root，encoding ='utf8'，method ='xml'）但它仅在打印时有效，不适用于写入文件。我有一个...

python-3.x xml lxml elementtree file-handling

回答 1 投票 0

我将如何抓取这些嵌套的img标签？

我正在从标题中抓取该网站，并且还尝试抓取图像以及标题。原来是在抓取时返回以下数据：

python-3.x web-scraping beautifulsoup lxml

回答 1 投票 0

BeautifulSoup不显示内容

我想从MCX印度网站抓取现货价格数据。在检查元素时可见的HTML脚本如下： ]]] 好像表格中的数据似乎是通过JavaScript上传的。这就是为什么，如果您尝试使用'Requests'库获取此信息，则不会在返回时接收表的数据。 “请求”根本不支持JS。要抓取JS驱动的数据，请考虑使用'Selenium'和chromedriver。这种情况下的解决方案如下所示： # import libraries from bs4 import BeautifulSoup from selenium import webdriver # create a webdriver chromedriver_path = 'C:\\path\\to\\chromedriver.exe' driver = webdriver.Chrome(chromedriver_path) # go to the page and get its source driver.get('http://www.mcxindia.com/market-data/spot-market-price') soup = BeautifulSoup(driver.page_source, 'html.parser') # fetch mentioned data table = soup.find('table', {'id': 'tblSMP'}) for tr in table.tbody.find_all('tr'): row = [td.text for td in tr.find_all('td')] print(row) # close the webdriver driver.quit() 以上脚本的输出为： ['ALMOND', '1 KGS', 'DELHI', '558.00', '='] ['ALUMINIUM', '1 KGS', 'THANE', '137.60', '='] ['CARDAMOM', '1 KGS', 'VANDANMEDU', '2,525.00', '='] ['CASTORSEED', '100 KGS', 'DEESA', '3,626.00', '▼'] ['CHANA', '100 KGS', 'DELHI', '4,163.00', '▲'] ['COPPER', '1 KGS', 'THANE', '388.30', '='] ['COTTON', '1 BALES', 'RAJKOT', '15,790.00', '▲'] ['CPO', '10 KGS', 'KANDLA', '630.10', '▼'] ['CRUDEOIL', '1 BBL', 'MUMBAI', '2,418.00', '▲'] ['GOLD', '10 GRMS', 'AHMEDABAD', '40,989.00', '='] ['GOLDGUINEA', '8 GRMS', 'AHMEDABAD', '32,923.00', '='] ['GOLDM', '10 GRMS', 'AHMEDABAD', '40,989.00', '='] ['GOLDPETAL', '1 GRMS', 'MUMBAI', '4,129.00', '='] ['GUARGUM', '100 KGS', 'JODHPUR', '5,880.00', '='] ['GUARSEED', '100 KGS', 'JODHPUR', '3,660.00', '='] 让我知道是否有不清楚的地方。

python html web-scraping beautifulsoup lxml

回答 1 投票 0

如何使用lxml提取XML元素的上下文

给定以下数据结构（Journal Article Tag Suite，JATS），我想提取PubMed Central论文的引文上下文：这是一个句子。这是一个引用句子[ ] >> 根据我的收集，您可以从xml中提取引用ID。引文列在<ref id="some ID">下xml文件的底部您可以利用Beautiful Soup来基于参考ID轻松找到数据。 https://www.crummy.com/software/BeautifulSoup/bs4/doc/ from bs4 import BeautifulSoup fName = 'PMC1914234.xml' rid = 'CR2' with open(fName) as f: soup = BeautifulSoup(f, "xml") rid_2 = soup.find(id=rid) print(rid_2) article_title = rid_2.find('article-title') print(article_title.text) # >>> A candidate genetic risk factor for vascular disease: a common mutation in methylenetetrahydrofolate reductase 这是您想要的吗？： import elementpath import xml.etree.ElementTree as ET root = ET.parse('PMC1914234.xml').getroot() for ent in root.findall(".//xref[@rid='CR1']"): print({ent.attrib['rid']:ent.tail}) {'CR1': ']. However, when these pathways are deranged because of genetic mutations of enzymes involved or relative deficiencies of folate, vitamin B6 or vitamin B12, the serum concentration of Hcy increases [\n '} 您可能必须使用正则表达式进行一些清理

python xml lxml

回答 2 投票 0

lxml 相关问题

最新问题