html-parsing 相关问题

HTML解析是消耗HTML文档的序列化并产生可以以编程方式工作的表示的过程 - 例如,为了从中提取数据。 HTML规范定义了用于解析HTML的标准算法,该算法在所有主流浏览器中实现。

为什么来自 beautifulsoup4 的 get_text() 没有提取任何内容?

我试图从 HTML 文档中的一堆 p 标签中提取人类可读的文本,但 bs4 中的 get_text() 函数似乎根本没有提取任何内容。 这是一个示例输出...

回答 1 投票 0

正则表达式来解析注释块并解析其内容

我想要一个正则表达式来查看这样的字符串,从每个注释块中获取“card”值,并且如果存在“disabled”:true或“hide”:true,则为TRUE...

回答 1 投票 0

bs4 中的 Soup.find 无法从 h1 标签中抓取,但适用于所有其他 HTML 标签

我在使用 BeautifulSoup 4 时遇到问题。我的代码运行良好,然后开始出错,无法再从 h1 标签收集内部文本。奇怪的是,它与所有功能都完美配合

回答 1 投票 0

我如何使用请求获取网站html代码?

我重复了教程中的所有步骤,但我没有得到代码。虽然几天前一切正常 我写了一个简单的代码: 导入请求 url = 'https://i-teka.kz/almaty/spisokap...

回答 1 投票 0

解析具有指定属性的<meta>标签并提取另一个属性的值

我正在为我的网站开发引擎。它被设置为使用元标记,然后 PHP 代码处理并创建页面,从而使创建页面变得简单。我知道很多人可能认为这是一个...

回答 2 投票 0

React js 解析 html 条带之间的内容

请问,有什么方法可以正确解析包含html标签和条带内一些文本的内容< and >。 我试过了: 从 'dompurify' 导入 DOMPurify; 从 'html 导入解析...

回答 1 投票 0

IMPORTXML:如何从网页中抓取 NBA 徽标(使用 Google 表格)

网页:https://www.sportslogos.net/teams/list_by_league/6/National_Basketball_Association/NBA/logos/ 工具:谷歌表格 功能:导入xml 询问 : 我想检索 NBA 徽标的链接...

回答 1 投票 0

HtmlAgilityPack 设置节点 InnerText

我想用其他文本替换 HTML 标签的内部文本。 我正在使用 HtmlAgilityPack 我使用这段代码来提取所有文本 HtmlDocument doc = new HtmlDocument(); doc.Load("某个路径") foreach (

回答 3 投票 0

如何使用 Cheerio google 应用脚本从网站 github.com 获取表格

我正在尝试使用 Google 应用程序脚本中的 Cheerio lib 从该网站获取表格。我在这个答案下面放了一些代码,但在 console.log() 中只得到 [] 有我的代码 函数测试2() { 常量...

回答 1 投票 0

Blazor-EditForm InputCheckbox 可空布尔问题解决方案

我正在尝试为 Blazor 上从输入库派生的编辑表单创建定制输入,但是我很难掌握它,因为我这周最近才学习 Blazor 和 C#,一般来说...

回答 3 投票 0

检查 HTML 字符串中是否有未打开的标签

我有一个字符串作为 HTML 源,我想检查作为字符串的 HTML 源是否包含未打开的标签。 例如,下面的字符串在 WAVEFORM 后面包含 ...

回答 3 投票 0

使用 Beautifulsoup 解析 HTML - Print 可以工作,但 Return 不行

为什么 print() 返回这些标签下的所有文本,而 return 却没有? 这是我正在使用的功能- def parse_html(数据): ls = [] htmlParse = BeautifulSoup(data, 'html.parser') ...

回答 1 投票 0

python:将带有UNNESTED div标签的html文档解析为数据框(使用beautifulsoup)

长期用户,但从未问过我自己的问题。 我想使用 python 将 html 文档中的表解析为数据帧。该表格不是 html 表格,我认为它是 javascript 创建的...

回答 1 投票 0

如何用Java高效解析HTML?

我在工作中进行了大量的 HTML 解析。到目前为止,我一直在使用 HtmlUnit 无头浏览器进行解析和浏览器自动化。 现在,我想将这两个任务分开。 我想用一个李...

回答 3 投票 0

解析HTML以导出特定表格的单元格内容

有一个 HTML 文件,使用“Invoke-WebRequest”导出到变量,我想从其中导出特定表中的内容。 $Result = Invoke-WebRequest 'https://www.dailyfaceoff.com/...

回答 1 投票 0

无法找到 Youtube 观看次数

遵循有关抓取 YouTube 观看次数和视频日期的 YouTube 教程 [https://www.youtube.com/watch?v=Cc3mMH8XWC4] 我为每个视频制作了一个数据框,它有视图、clean_views、video_url、vide...

回答 1 投票 0

我正在尝试使用 bs4 打开 html 文件,但出现此错误

MarkupResemblesLocatorWarning:输入看起来更像是文件名而不是标记。您可能想要打开此文件并将文件句柄传递到 Beautiful Soup 中。 汤 = BeautifulSoup(html_doc,"lxml...

回答 1 投票 0

为什么部分内容会神奇地消失

我尝试抓取网站https://www.pik.ru/search/vangarden/storehouse,并且我成功地从网站获取了html并将其写入文件中,但是当我尝试获取html时很多信息...

回答 1 投票 0

无法解决安装 html-parser 的依赖关系

我正在尝试在当前项目中安装 npm install react-html-parser 。所以我尝试安装 npm install react-html-parser 但在使用该命令之后。 npm 错误!代码 ERESOLVE npm E...

回答 6 投票 0

如何从网站获取需求 html?

感谢您的关注,并为我糟糕的英语感到抱歉。 我一直在尝试从 https://www.skiddle.com/festivals/dates.html 获取 html,但没有成功。我明白,有些部分会下降...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.