html-parsing 相关问题

HTML解析是消耗HTML文档的序列化并产生可以以编程方式工作的表示的过程 - 例如,为了从中提取数据。 HTML规范定义了用于解析HTML的标准算法,该算法在所有主流浏览器中实现。

确定字符串是在文本内容内部还是属性的一部分

我正在尝试提出一种算法,该算法可识别字符串是元素文本内容的一部分还是元素属性的一部分。例如:

回答 1 投票 0

AttributeError:'bytes'对象没有属性'find_all'

我正在尝试通过网上抓取板球比分webiste获得记分卡。但是我遇到了这个属性错误:追溯(最近一次通话最近):**文件“ J:/ Python程序/ Web抓取工具/ ESPN Cric信息....

回答 1 投票 0

如何在Nokogiri中解析图像href

我正在使用Nokogiri解析网页,并想解析出图像URL。这是我的设置:require'nokogiri'require'open-uri'doc = Nokogiri :: HTML(open('https://themeforest.net/search?...

回答 1 投票 -3

Nokogiri无法解析图像,返回“ lazyload-placeholder”

我正在使用Nokogiri解析网页,并想解析出图像URL。这是我的设置:doc = Nokogiri :: XML(open('https://examplesite.com'))目标网站包含以下内容...

回答 1 投票 0

我正在尝试解析URL列表中的信息,但是我的代码每次都解析同一页面

我正在尝试解析以UTF8格式保存的URL列表以及python空闲文件夹中的命名链接。一个示例是:'https://www.safirstores.com/%D8%A2%D8%B1%D8%A7%DB%8C%D8%B4%DB%8C#/ ...

回答 1 投票 0

如何使用Java中的WebKit从加载的页面中获取html

[我的目标是使用Java来解析Airbnb列表页面,例如这样的页面:https://www.airbnb.com/rooms/28149735我首先尝试使用JSoup如下:String html = Jsoup.connect(webPage)。 get()。html(); ...

回答 1 投票 0

使用SED从多个HTML文件中提取数据

我递归地在许多目录中有一些HTML文件。所有这些HTML文件都共享一些设计模式。即都有固定的类或标签。我正在寻找从这样的信息中提取信息...

回答 1 投票 -1

从html文本中提取字符串

我正在获取带有curl的html,只需要提取第二个表语句。请注意,卷曲的html是单个字符串且未格式化。为了获得更好的解释,请参见以下内容:(...立场...

回答 2 投票 0

从网页获取表格:获取完整的html问题

我需要从此页面获取表格:https://stats.nba.com/teams/traditional/?sort=GP&dir=-1。从页面的html可以看到,该表是在标签&...

回答 1 投票 0

使用Jsoup解析HTML以获得单个元素的文本

我需要解析以下文本,并为每个文本创建单独的对象。我尝试了几种方法来执行此操作,但是它没有提供所需格式的结果。文本为:字符串文本=“这是...

回答 2 投票 0

如何将Nokogiri元素分配给哈希键

我正在抓取Techcrunch.com,并获取每篇文章的标题,URL和预览文本。我有:需要'nokogiri'需要'open-uri'类TestScraper :: Scraper @doc = Nokogiri :: HTML(open(“ https:...

回答 1 投票 0

使用Python解析HTML,而不考虑正确的标记层次结构

我想解析一个语法上是html文档的文档(使用带有属性等的标记),但是结构上不遵循规则(例如,在[[]内可能有一个标记) BeautifulSoup应该很好。 将是以下情况: body 然后您将在“汤”中搜索所需内容。

回答 1 投票 0

将Nokogiri元素分配给哈希键有麻烦

我已经尝试学习红宝石已有几个月了,我正在与Nokogiri一起练习刮刮。我正在抓取Techcrunch.com,并获取每篇文章的标题,URL和预览文本。到目前为止,我有:...

回答 1 投票 0

如何将PHP数组返回到调用它的javascript函数

..试着这种方式.. 链接到另一个页面对我来说并不是很有用..我已经查看了大部分页面并且无法根据我的需要调整它们。 我不熟悉ajax或jQuery。 我可以真...

回答 3 投票 0

如何使用HTML Agility Pack删除特定标签内的跨度?

我有一个示例html,下面我想使用html敏捷包删除注释标记内的所有span标记

回答 1 投票 1


如何跨HTML标签边界查找文本?

我有这样的HTML: Lorem ipsum dolor sit amet。 如何在此HTML中为我的搜索字符串ipsum dolor找到基于纯文本的匹配项?我需要开始...

回答 2 投票 0

如何使用PowerShell解析网站的HTML

我正在尝试检索有关网站的一些信息,我想查找特定的标签/类,然后返回所包含的文本值(innerHTML)。到目前为止,这就是我所需要的$ request = Invoke -...

回答 1 投票 1

如何从xml检索html?

我正在尝试从XML文件中获取HTML代码,而我所得到的只是单个元素。 XML示例: [[[]] >> 您可以使用beautifulsoup: from bs4 import BeautifulSoup example = """ <?xml version="1.0" encoding="ISO-8859-1"?> <websites> <website name="1"> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title/> </head><body>Sample Content.....</body> </html> </website> </websites> """ soup = BeautifulSoup(example) html = soup.find('html') print(html) 输出: <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title></title> </head><body>Sample Content.....</body> </html>

回答 1 投票 0

Python BeautifulSoup抓取表

我正在尝试使用BeautifulSoup创建表格抓取。我写了这个Python代码:从bs4导入urllib2 import BeautifulSoup url =“ http://dofollow.netsons.org/table1.htm”#更改为任何内容...

回答 2 投票 17

© www.soinside.com 2019 - 2024. All rights reserved.