lxml 相关问题

lxml是一个功能齐全的高性能Python库,用于处理XML和HTML。

如何使用python将字典值插入html模板文件?

我有一个html模板文件,如下所示,我想用python脚本中的字典值替换标题和正文。

回答 1 投票 1

ImportError:似乎未安装cssselect。参见http://packages.python.org/cssselect/

我已经使用pip install cssselect安装了,但仍无法导入?我在Windows上。

回答 2 投票 0

使用Python / lxml.html,是否可以获取单选按钮的标签?

我在一个网页上有三个单选按钮(在一个组中),如下所示进行了检查:蓝色

回答 1 投票 -1

空列表LXML XPATH

我在提供的链接中有问题(https://www.avisosdeocasion.com/Resultados-Inmuebles.aspx?n=venta-casas-nuevo-leon&PlazaBusqueda=2&Plaza=2.html)我正在尝试得到第一个...

回答 1 投票 -1

在python 3.6中安装libxml2和libxslt

我在使用Pycharm和PIP在python 3.6 64bit中安装lxml 3.6.4时遇到一些问题。 pip install lxml == 3.6.4错误:b“'xslt-config'无法识别为内部或外部命令,\ r \ ...

回答 1 投票 1


lxml + django + uwsgi无法生成正确格式的Excel文件?

当我的项目在我的环境中安装了lxml时,当我的项目以uwsgi开头时,无法打开生成的excel文件,因为可以使用django manage.py runserver和gunicorn我的主要对象成功地打开它,] ...

回答 1 投票 2

“ bs4.FeatureNotFound:安装lxml后找不到具有您请求的功能的树生成器:lxml”

我正在尝试使用Beautiful Soup来解析XML文档。这是我实例化BeautifulSoup对象的代码:open(filename,encoding ='utf-8')as f_:content = f_.read()xml_cont = ...

回答 1 投票 0

lxml影响django + uwsgi生成的excel文件??

当我的项目在我的环境中安装了lxml时,当我的项目以uwsgi开头时,无法打开生成的excel文件,因为可以使用django manage.py runserver和gunicorn我的主要对象成功地打开它,] ...

回答 1 投票 2

在lxml Python 3中如何递归所有链接的ids

我有这样的xml: [[[[ ]]]] 尝试以下代码: from lxml import etree as et parser = et.XMLParser(remove_blank_text=True) tree = et.parse('Input.xml', parser) root = tree.getroot() cidList = ['title001'] # Your source list cidDct = { x: 0 for x in cidList } for elem in root.iter('content'): cid = elem.attrib.get('content-id', '') # print(f'{elem.tag:15} {cid}') if cid in cidDct.keys(): # print(f'Found: {cid}') for elem2 in elem.iter(): cid2 = elem2.attrib.get('content-id', '') if len(cid2) > 0: # print(f'Add: {cid2}') cidDct[cid2] = 0 对于测试,您可以在上面取消注释打印输出。 现在打印list(cidDct.keys())时,将得到想要 ids :['title001', 'Number1', 'Number2', 'Number1b']

回答 1 投票 0

从html / json页面提取特定部分的最佳方法?

我具有从python请求返回的以下内容:{“ error”:{“ ErrorMessage”:“

回答 2 投票 1

Lxml获取所有项目,但也要测试下一个-Python

我在尝试解析此lxml时遇到麻烦。我正在使用python语言3.6.9。是这样的。 ...

回答 1 投票 0

TypeError:类型'lxml.etree._ElementTree'的对象没有len()

我正在尝试删除Python函数返回的XML文件中的一些空文本标签,但出现此错误:TypeError:类型为'lxml.etree._ElementTree'的对象没有len()。为什么?这是...

回答 1 投票 0

如何在XML中删除仅包含空格的空XML标记?

我需要删除这样的情况: 我有在没有空格的情况下可以工作的代码,但是如果有空格怎么办?代码:doc = etree.XML(“”“ [

回答 1 投票 0

不正确的父元素lxml

我正在用Python实现网络抓取程序。考虑下面的HTML代码段。 HelloWorld HiThere

回答 1 投票 0

如何在python中使用xpath在源代码中获取图像src url

因此,我正在开发一个程序,以从站点下载一些图像,而且我必须以某种方式获取img标签的“ src”部分。我可以用硒来做到这一点,但是我不得不修改代码,现在我是...

回答 1 投票 0

如何使用python 3将xml序言包含到xml文件中?

我想在我的XML文件中包括XML序言...我尝试了以下操作-ET.tostring(root,encoding ='utf8',method ='xml')但它仅在打印时有效,不适用于写入文件。我有一个...

回答 1 投票 0

我将如何抓取这些嵌套的img标签?

我正在从标题中抓取该网站,并且还尝试抓取图像以及标题。原来是在抓取时返回以下数据:

回答 1 投票 0

BeautifulSoup不显示内容

我想从MCX印度网站抓取现货价格数据。在检查元素时可见的HTML脚本如下: ]]] 好像表格中的数据似乎是通过JavaScript上传的。 这就是为什么,如果您尝试使用'Requests'库获取此信息,则不会在返回时接收表的数据。 “请求”根本不支持JS。 要抓取JS驱动的数据,请考虑使用'Selenium'和chromedriver。这种情况下的解决方案如下所示: # import libraries from bs4 import BeautifulSoup from selenium import webdriver # create a webdriver chromedriver_path = 'C:\\path\\to\\chromedriver.exe' driver = webdriver.Chrome(chromedriver_path) # go to the page and get its source driver.get('http://www.mcxindia.com/market-data/spot-market-price') soup = BeautifulSoup(driver.page_source, 'html.parser') # fetch mentioned data table = soup.find('table', {'id': 'tblSMP'}) for tr in table.tbody.find_all('tr'): row = [td.text for td in tr.find_all('td')] print(row) # close the webdriver driver.quit() 以上脚本的输出为: ['ALMOND', '1 KGS', 'DELHI', '558.00', '='] ['ALUMINIUM', '1 KGS', 'THANE', '137.60', '='] ['CARDAMOM', '1 KGS', 'VANDANMEDU', '2,525.00', '='] ['CASTORSEED', '100 KGS', 'DEESA', '3,626.00', '▼'] ['CHANA', '100 KGS', 'DELHI', '4,163.00', '▲'] ['COPPER', '1 KGS', 'THANE', '388.30', '='] ['COTTON', '1 BALES', 'RAJKOT', '15,790.00', '▲'] ['CPO', '10 KGS', 'KANDLA', '630.10', '▼'] ['CRUDEOIL', '1 BBL', 'MUMBAI', '2,418.00', '▲'] ['GOLD', '10 GRMS', 'AHMEDABAD', '40,989.00', '='] ['GOLDGUINEA', '8 GRMS', 'AHMEDABAD', '32,923.00', '='] ['GOLDM', '10 GRMS', 'AHMEDABAD', '40,989.00', '='] ['GOLDPETAL', '1 GRMS', 'MUMBAI', '4,129.00', '='] ['GUARGUM', '100 KGS', 'JODHPUR', '5,880.00', '='] ['GUARSEED', '100 KGS', 'JODHPUR', '3,660.00', '='] 让我知道是否有不清楚的地方。

回答 1 投票 0

如何使用lxml提取XML元素的上下文

给定以下数据结构(Journal Article Tag Suite,JATS),我想提取PubMed Central论文的引文上下文: 这是一个句子。这是一个引用句子[ ] >> 根据我的收集,您可以从xml中提取引用ID。 引文列在<ref id="some ID">下xml文件的底部 您可以利用Beautiful Soup来基于参考ID轻松找到数据。 https://www.crummy.com/software/BeautifulSoup/bs4/doc/ from bs4 import BeautifulSoup fName = 'PMC1914234.xml' rid = 'CR2' with open(fName) as f: soup = BeautifulSoup(f, "xml") rid_2 = soup.find(id=rid) print(rid_2) article_title = rid_2.find('article-title') print(article_title.text) # >>> A candidate genetic risk factor for vascular disease: a common mutation in methylenetetrahydrofolate reductase 这是您想要的吗? : import elementpath import xml.etree.ElementTree as ET root = ET.parse('PMC1914234.xml').getroot() for ent in root.findall(".//xref[@rid='CR1']"): print({ent.attrib['rid']:ent.tail}) {'CR1': ']. However, when these pathways are deranged because of genetic mutations of enzymes involved or relative deficiencies of folate, vitamin B6 or vitamin B12, the serum concentration of Hcy increases [\n '} 您可能必须使用正则表达式进行一些清理

回答 2 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.