html-parsing 相关问题

HTML解析是消耗HTML文档的序列化并产生可以以编程方式工作的表示的过程 - 例如,为了从中提取数据。 HTML规范定义了用于解析HTML的标准算法,该算法在所有主流浏览器中实现。

正则表达式来解析注释块并解析其内容

我想要一个正则表达式来查看这样的字符串,从每个注释块中获取“card”值,并且如果存在“disabled”:true或“hide”:true,则为TRUE...

回答 1 投票 0

bs4 中的 Soup.find 无法从 h1 标签中抓取,但适用于所有其他 HTML 标签

我在使用 BeautifulSoup 4 时遇到问题。我的代码运行良好,然后开始出错,无法再从 h1 标签收集内部文本。奇怪的是,它与所有功能都完美配合

回答 1 投票 0

我如何使用请求获取网站html代码?

我重复了教程中的所有步骤,但我没有得到代码。虽然几天前一切正常 我写了一个简单的代码: 导入请求 url = 'https://i-teka.kz/almaty/spisokap...

回答 1 投票 0

解析具有指定属性的<meta>标签并提取另一个属性的值

我正在为我的网站开发引擎。它被设置为使用元标记,然后 PHP 代码处理并创建页面,从而使创建页面变得简单。我知道很多人可能认为这是一个...

回答 2 投票 0

React js 解析 html 条带之间的内容

请问,有什么方法可以正确解析包含html标签和条带内一些文本的内容< and >。 我试过了: 从 'dompurify' 导入 DOMPurify; 从 'html 导入解析...

回答 1 投票 0

IMPORTXML:如何从网页中抓取 NBA 徽标(使用 Google 表格)

网页:https://www.sportslogos.net/teams/list_by_league/6/National_Basketball_Association/NBA/logos/ 工具:谷歌表格 功能:导入xml 询问 : 我想检索 NBA 徽标的链接...

回答 1 投票 0

HtmlAgilityPack 设置节点 InnerText

我想用其他文本替换 HTML 标签的内部文本。 我正在使用 HtmlAgilityPack 我使用这段代码来提取所有文本 HtmlDocument doc = new HtmlDocument(); doc.Load("某个路径") foreach (

回答 3 投票 0

如何使用 Cheerio google 应用脚本从网站 github.com 获取表格

我正在尝试使用 Google 应用程序脚本中的 Cheerio lib 从该网站获取表格。我在这个答案下面放了一些代码,但在 console.log() 中只得到 [] 有我的代码 函数测试2() { 常量...

回答 1 投票 0

Blazor-EditForm InputCheckbox 可空布尔问题解决方案

我正在尝试为 Blazor 上从输入库派生的编辑表单创建定制输入,但是我很难掌握它,因为我这周最近才学习 Blazor 和 C#,一般来说...

回答 3 投票 0

检查 HTML 字符串中是否有未打开的标签

我有一个字符串作为 HTML 源,我想检查作为字符串的 HTML 源是否包含未打开的标签。 例如,下面的字符串在 WAVEFORM 后面包含 ...

回答 3 投票 0

使用 Beautifulsoup 解析 HTML - Print 可以工作,但 Return 不行

为什么 print() 返回这些标签下的所有文本,而 return 却没有? 这是我正在使用的功能- def parse_html(数据): ls = [] htmlParse = BeautifulSoup(data, 'html.parser') ...

回答 1 投票 0

python:将带有UNNESTED div标签的html文档解析为数据框(使用beautifulsoup)

长期用户,但从未问过我自己的问题。 我想使用 python 将 html 文档中的表解析为数据帧。该表格不是 html 表格,我认为它是 javascript 创建的...

回答 1 投票 0

如何用Java高效解析HTML?

我在工作中进行了大量的 HTML 解析。到目前为止,我一直在使用 HtmlUnit 无头浏览器进行解析和浏览器自动化。 现在,我想将这两个任务分开。 我想用一个李...

回答 3 投票 0

解析HTML以导出特定表格的单元格内容

有一个 HTML 文件,使用“Invoke-WebRequest”导出到变量,我想从其中导出特定表中的内容。 $Result = Invoke-WebRequest 'https://www.dailyfaceoff.com/...

回答 1 投票 0

无法找到 Youtube 观看次数

遵循有关抓取 YouTube 观看次数和视频日期的 YouTube 教程 [https://www.youtube.com/watch?v=Cc3mMH8XWC4] 我为每个视频制作了一个数据框,它有视图、clean_views、video_url、vide...

回答 1 投票 0

我正在尝试使用 bs4 打开 html 文件,但出现此错误

MarkupResemblesLocatorWarning:输入看起来更像是文件名而不是标记。您可能想要打开此文件并将文件句柄传递到 Beautiful Soup 中。 汤 = BeautifulSoup(html_doc,"lxml...

回答 1 投票 0

为什么部分内容会神奇地消失

我尝试抓取网站https://www.pik.ru/search/vangarden/storehouse,并且我成功地从网站获取了html并将其写入文件中,但是当我尝试获取html时很多信息...

回答 1 投票 0

无法解决安装 html-parser 的依赖关系

我正在尝试在当前项目中安装 npm install react-html-parser 。所以我尝试安装 npm install react-html-parser 但在使用该命令之后。 npm 错误!代码 ERESOLVE npm E...

回答 6 投票 0

如何从网站获取需求 html?

感谢您的关注,并为我糟糕的英语感到抱歉。 我一直在尝试从 https://www.skiddle.com/festivals/dates.html 获取 html,但没有成功。我明白,有些部分会下降...

回答 1 投票 0

用于删除复杂 html 标签的正则表达式

我正在使用正则表达式来检索 html 页面的文本。我使用这个正则表达式消除 html 标签: <[^>]+> 问题是这个正则表达式在 html 标签上无法正常工作,如下所示: 我正在使用正则表达式来检索 html 页面的文本。我使用这个正则表达式消除 html 标签: <[^>]+> 问题是这个正则表达式无法在这样的 html 标签上正常工作: <input type="button" onclick="if (a > b) do_somthing();"> 此正则表达式将与 <input type="button" onclick="if (a > 匹配,并且 b) do_somthing();"> 将保留。 我应该使用哪个正则表达式来匹配此标记? 实现此目标的更好且正确的方法是使用 HTML 解析器(如敏捷 HTML 包)来解析 HTML 并根据您的要求使用。使用 REGEX 解析 HTML 很困难,而且容易出错。 了解更多:http://www.mikesdotnetting.com/article/273/using-the-htmlagilitypack-to-parse-html-in-asp-net 如上所述,请阅读以下链接,为什么正则表达式不适用于 HTML -> 不要对 HTML 使用正则表达式。 正如评论中建议的那样,使用 C# HTML 解析器,例如CsQuery。 你可以试试这个: :%s/<.\{-}[^ ]> [^ ]> 确保匹配 > 之前没有任何空格。

回答 3 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.