html-parsing 相关问题

HTML解析是消耗HTML文档的序列化并产生可以以编程方式工作的表示的过程 - 例如，为了从中提取数据。 HTML规范定义了用于解析HTML的标准算法，该算法在所有主流浏览器中实现。

我正在使用BeautifulSoup解析HTML文档。从bs4导入BeautifulSoup导入请求导入页面= request.get（“ http://www.crmpicco.co.uk/?page_id=82&lottoId=27”）汤= ...

python regex python-2.7 beautifulsoup html-parsing

回答 1 投票 0

如何找到嵌入的“ a”标签

我在p.user_info中找不到标签： [

ruby html-parsing nokogiri

回答 2 投票 -5

如何使用Powershell更改表中的多个标题

我正在尝试更改我的代码中的多个标头名称，这些标头名称是从该站点提取Team Statistics表的，我不确定在代码中手动更改它们的位置。例如，我尝试过...

windows powershell web-scraping html-parsing powershell-4.0

回答 1 投票 1

我无法解析页面并获得链接Nokogiri

我无法通过Nokogiri解析获得链接列表，https：//chromedriver.storage.googleapis.com/index.html？path = 79.0.3945.36 /我在做什么错？链接= Nokoiri :: HTML（'https：// chromedriver ....

ruby xml-parsing html-parsing nokogiri

回答 2 投票 0

如何在python中使用BeautifulSoup获得第二个跨度？

我正在尝试获取此div和其他类似的div值（如下所示） [VALUE 1 ] >> < [ 尝试一下 from io import StringIO from bs4 import BeautifulSoup as bs data = """<div class="C(#959595) Fz(11px) D(ib) Mb(6px)"> <span>VALUE 1</span> <i aria-hidden="true" class="Mx(4px)">•</i> <span>TRYING TO GET THIS</span> </div> <div class="another class"> <span>VALUE 1</span> <i aria-hidden="true" class="Mx(4px)">•</i> <span>TRYING TO GET THIS</span> </div>""" soup = bs(StringIO(data)) spans = soup.select('div[class="C(#959595) Fz(11px) D(ib) Mb(6px)"] > span') print(spans[1].text) 您基本上有了它，您只需要在每个div（find_next）中获得第二个跨度： soup = BeautifulSoup(HTML, 'html.parser') divs = soup.find_all('div', {'class': 'C(#959595) Fz(11px) D(ib) Mb(6px)'}) for div in divs: # want the second span in the div span = div.find_next('span').find_next('span') print(span.string) div= soup.find_all('div',class_='C(#959595) Fz(11px) D(ib) Mb(6px)') [x.get_text() for x in div[0].find_all('span')] #op Out[17]: ['VALUE 1', 'TRYING TO GET THIS'] 有几种获取所需值的方法。 from simplified_scrapy.simplified_doc import SimplifiedDoc html=''' <div class="C(#959595) Fz(11px) D(ib) Mb(6px)"> <span>VALUE 1</span> <i aria-hidden="true" class="Mx(4px)">•</i> <span>TRYING TO GET THIS</span> </div> ''' doc = SimplifiedDoc(html) divs = doc.getElementsByClass('C(#959595) Fz(11px) D(ib) Mb(6px)') for div in divs: value = div.getElementByTag('span',start='</span>') # Use start to skip the first print (value) value = div.getElementByTag('span',before='<span>',end=len(div.html)) # Locate the last print (value) value = div.i.next # Use <i> to locate print (value) value = div.spans[-1] print (value) print (value.text) 结果： {'tag': 'span', 'html': 'TRYING TO GET THIS'} {'tag': 'span', 'html': 'TRYING TO GET THIS'} {'tag': 'span', 'html': 'TRYING TO GET THIS'} {'tag': 'span', 'html': 'TRYING TO GET THIS'} TRYING TO GET THIS

python web-scraping beautifulsoup html-parsing

回答 4 投票 0

如何使用grep将具有属性的HTML特定标记之间的内容进行匹配？

[如果我想匹配HTML文件中标签及其结束标签中包含的文本，我应该与grep命令一起使用哪个正则表达式？

regex grep html-parsing

回答 3 投票 10

[如何在Chrome中单击“检查”，使Beautiful soup html解析器与显示的代码相同？

因此，基本上，我正在尝试构建一个网络刮板，以在速卖通网站上找到产品的评论。但是，当我解析html代码时，解析后的代码与我在...

python-3.x beautifulsoup html-parsing

回答 1 投票 0

getElementsByTagName返回空的HTML元素

我正在构建一个应用程序，以便能够从Instagram.com提取图像。我将源代码作为字符串获取，并将其转换为HTML文档，以便能够解析...

c# html html-parsing

回答 1 投票 0

使用漂亮的汤或python中的任何其他方法解析Autosar arxml

我正在处理autosar文件，在Autosar中，我们使用.arxml文件，在以下arxml文件中，我想解析一些数据（DTC值，例如：112068）.arxml： ...]

python beautifulsoup xml-parsing html-parsing

回答 1 投票 0

如何使用python爬行html字符串内容（逐个标记）

我有html字符串，想查找文本元素并替换为标记。我使用beautifulsoup来获取数据，但get_text仅给出文本而不是相应的元素。怎么走...

python python-3.x html-parsing html-parser

回答 1 投票 0

从html_text（）返回的Rvest抓取网页内容

我正在尝试使用rvest软件包从网页中抓取（动态？）内容。我了解动态内容应要求使用Selenium或PhantomJS之类的工具。但是我的...

r web-scraping html-parsing rvest html-content-extraction

回答 1 投票 0

在非常大的HTML文件上使用BeautifulSoup-内存错误？

我正在通过一个项目-一个Facebook消息分析器来学习Python。我下载了数据，其中包括所有消息的messages.htm文件。我正在尝试编写一个程序来解析此文件...

python html parsing beautifulsoup html-parsing

回答 2 投票 2

BS4：删除 tags

[我正在使用BeautifulSoup 4，我的HTML如下：伦敦10 vol 54页我正试图删除...

python html parsing beautifulsoup html-parsing

回答 1 投票 1

使用Powershell返回HTML div的内容

我有一个类似的结构化HTML文件的目录（给出了两个示例）：File-1.html foo ]]]] 您可以尝试这样的事情： $content = Get-Content File-1.html $xmlContent = [xml]$content $bar = $xmlContent.html.body.div | where {$_.div -eq 'bar'} Write-Output $bar.InnerXML

html powershell xml-parsing html-parsing

回答 1 投票 0

带有NodeJS的E4X

有什么方法可以使E4X（ECMAScript）与NodeJS一起使用？这确实有助于输出流畅的html / xml，而不会带来麻烦/噪音。由于它是本地实现的，因此可以使用SpiderMonkey正常工作，...

javascript node.js html-parsing e4x spidermonkey

回答 2 投票 12

Beautiful Soup返回'none'

我正在使用以下代码使用漂亮的汤提取数据：导入请求导入bs4 res = request.get（'https：//www.jmu.edu/cgi-bin/parking_sign_data.cgi？hash = ...] >

python html web-scraping beautifulsoup html-parsing

回答 1 投票 0

解析是什么？

解析是我在开发中遇到的很多事情，但是作为一个初级，这是我想必需要时在某些时候掌握的东西之一。在我当前的项目中，我一直在...