html-parsing 相关问题

HTML解析是消耗HTML文档的序列化并产生可以以编程方式工作的表示的过程 - 例如,为了从中提取数据。 HTML规范定义了用于解析HTML的标准算法,该算法在所有主流浏览器中实现。

使用Python 2.7从HTML字符串中扩展文件名

我正在使用BeautifulSoup解析HTML文档。从bs4导入BeautifulSoup导入请求导入页面= request.get(“ http://www.crmpicco.co.uk/?page_id=82&lottoId=27”)汤= ...

回答 1 投票 0

如何找到嵌入的“ a”标签

我在p.user_info中找不到标签: [

回答 2 投票 -5

如何使用Powershell更改表中的多个标题

我正在尝试更改我的代码中的多个标头名称,这些标头名称是从该站点提取Team Statistics表的,我不确定在代码中手动更改它们的位置。例如,我尝试过...

回答 1 投票 1

我无法解析页面并获得链接Nokogiri

我无法通过Nokogiri解析获得链接列表,https://chromedriver.storage.googleapis.com/index.html?path = 79.0.3945.36 /我在做什么错?链接= Nokoiri :: HTML('https:// chromedriver ....

回答 2 投票 0

如何在python中使用BeautifulSoup获得第二个跨度?

我正在尝试获取此div和其他类似的div值(如下所示) [VALUE 1 ] >> < [ 尝试一下 from io import StringIO from bs4 import BeautifulSoup as bs data = """<div class="C(#959595) Fz(11px) D(ib) Mb(6px)"> <span>VALUE 1</span> <i aria-hidden="true" class="Mx(4px)">•</i> <span>TRYING TO GET THIS</span> </div> <div class="another class"> <span>VALUE 1</span> <i aria-hidden="true" class="Mx(4px)">•</i> <span>TRYING TO GET THIS</span> </div>""" soup = bs(StringIO(data)) spans = soup.select('div[class="C(#959595) Fz(11px) D(ib) Mb(6px)"] > span') print(spans[1].text) 您基本上有了它,您只需要在每个div(find_next)中获得第二个跨度: soup = BeautifulSoup(HTML, 'html.parser') divs = soup.find_all('div', {'class': 'C(#959595) Fz(11px) D(ib) Mb(6px)'}) for div in divs: # want the second span in the div span = div.find_next('span').find_next('span') print(span.string) div= soup.find_all('div',class_='C(#959595) Fz(11px) D(ib) Mb(6px)') [x.get_text() for x in div[0].find_all('span')] #op Out[17]: ['VALUE 1', 'TRYING TO GET THIS'] 有几种获取所需值的方法。 from simplified_scrapy.simplified_doc import SimplifiedDoc html=''' <div class="C(#959595) Fz(11px) D(ib) Mb(6px)"> <span>VALUE 1</span> <i aria-hidden="true" class="Mx(4px)">•</i> <span>TRYING TO GET THIS</span> </div> ''' doc = SimplifiedDoc(html) divs = doc.getElementsByClass('C(#959595) Fz(11px) D(ib) Mb(6px)') for div in divs: value = div.getElementByTag('span',start='</span>') # Use start to skip the first print (value) value = div.getElementByTag('span',before='<span>',end=len(div.html)) # Locate the last print (value) value = div.i.next # Use <i> to locate print (value) value = div.spans[-1] print (value) print (value.text) 结果: {'tag': 'span', 'html': 'TRYING TO GET THIS'} {'tag': 'span', 'html': 'TRYING TO GET THIS'} {'tag': 'span', 'html': 'TRYING TO GET THIS'} {'tag': 'span', 'html': 'TRYING TO GET THIS'} TRYING TO GET THIS

回答 4 投票 0

如何使用grep将具有属性的HTML特定标记之间的内容进行匹配?

[如果我想匹配HTML文件中标签 及其结束标签 中包含的文本,我应该与grep命令一起使用哪个正则表达式?

回答 3 投票 10

[如何在Chrome中单击“检查”,使Beautiful soup html解析器与显示的代码相同?

因此,基本上,我正在尝试构建一个网络刮板,以在速卖通网站上找到产品的评论。但是,当我解析html代码时,解析后的代码与我在...

回答 1 投票 0

getElementsByTagName返回空的HTML元素

我正在构建一个应用程序,以便能够从Instagram.com提取图像。我将源代码作为字符串获取,并将其转换为HTML文档,以便能够解析...

回答 1 投票 0

使用漂亮的汤或python中的任何其他方法解析Autosar arxml

我正在处理autosar文件,在Autosar中,我们使用.arxml文件,在以下arxml文件中,我想解析一些数据(DTC值,例如:112068).arxml: ...]

回答 1 投票 0

如何使用python爬行html字符串内容(逐个标记)

我有html字符串,想查找文本元素并替换为标记。我使用beautifulsoup来获取数据,但get_text仅给出文本而不是相应的元素。怎么走...

回答 1 投票 0

从html_text()返回的Rvest抓取网页内容

我正在尝试使用rvest软件包从网页中抓取(动态?)内容。我了解动态内容应要求使用Selenium或PhantomJS之类的工具。但是我的...

回答 1 投票 0

在非常大的HTML文件上使用BeautifulSoup-内存错误?

我正在通过一个项目-一个Facebook消息分析器来学习Python。我下载了数据,其中包括所有消息的messages.htm文件。我正在尝试编写一个程序来解析此文件...

回答 2 投票 2

BS4:删除 tags

[我正在使用BeautifulSoup 4,我的HTML如下: 伦敦10 vol 54页 我正试图删除...

回答 1 投票 1

使用Powershell返回HTML div的内容

我有一个类似的结构化HTML文件的目录(给出了两个示例):File-1.html foo ]]]] 您可以尝试这样的事情: $content = Get-Content File-1.html $xmlContent = [xml]$content $bar = $xmlContent.html.body.div | where {$_.div -eq 'bar'} Write-Output $bar.InnerXML

回答 1 投票 0

带有NodeJS的E4X

有什么方法可以使E4X(ECMAScript)与NodeJS一起使用?这确实有助于输出流畅的html / xml,而不会带来麻烦/噪音。由于它是本地实现的,因此可以使用SpiderMonkey正常工作,...

回答 2 投票 12

Beautiful Soup返回'none'

我正在使用以下代码使用漂亮的汤提取数据:导入请求导入bs4 res = request.get('https://www.jmu.edu/cgi-bin/parking_sign_data.cgi?hash = ...] >

回答 1 投票 0

解析是什么?

解析是我在开发中遇到的很多事情,但是作为一个初级,这是我想必需要时在某些时候掌握的东西之一。在我当前的项目中,我一直在...

回答 8 投票 45

使用解析器从Span提取行内数据

我希望能够从内联范围中提取一些数据,但是在获取数据时遇到了麻烦。下面是代码部分,我正在尝试获取data-score =“ 5”。数字将根据...而变化...

回答 1 投票 0

Google电子表格中的ImportHTML解析错误

我正在尝试从网站访问第5表(股东),但存在解析错误。有人可以建议如何解决吗?我的代码:= ImportHTML(“ https://www.marketscreener.com/YANGZIJIANG -...

回答 1 投票 1

Python HTML解析器分页

我是python的新手,并且在尝试HTML解析器方面已经走了很多路,但是我在页面底部停留在如何使评论分页以使其适用于该网站的问题上。该网址位于...

回答 1 投票 1

© www.soinside.com 2019 - 2024. All rights reserved.