html-agility-pack 相关问题

HTML Agility Pack是一个开源HTML解析器,可构建读/写DOM并支持Linq,普通XPATH或XSLT。

在网络抓取中浏览多个页面

我正在进行网络抓取,以从yello页面获取值,并且在遍历页面时,循环功能无法获取页面计数增量。我添加了一个循环,继续显示数据...

回答 1 投票 0

HTML Agility Pack将LI项与UL一起包装

尝试解决不良HTML标记。假设我有以下标记: Foo Bar 或 Foo Bar 或&...

回答 1 投票 0

c#html敏捷包从html源代码中提取字符串

我只是在学习html敏捷包,并希望从网站中提取一些数据。我想将商品名称和价格存储在字符串中。我的HTML源代码包含25 ...

回答 1 投票 0

HtmlNode从嵌套范围获取内部文本

我正在尝试从html段中获取信息,一切都很好,但是我正努力返回价值交易的价值。以下是到目前为止我尝试过的代码的副本。 htmlNode ....

回答 1 投票 0

c#html敏捷包

我们正在将电子商务网站移至新平台,并且由于其所有页面均为静态html,并且它们在数据库中没有所有产品信息,因此我们必须抓取其当前的...

回答 2 投票 3

我如何使用HTMLAgilityPack从此站点提取数据?

我一直在学习有关如何使用HTMLAgilityPack抓取信息的教程,下面是一个示例:使用系统;使用System.Linq;使用System.Net;名称空间web_scraping_test {class ...

回答 1 投票 -1

HtmlNode选择alt等于值的img

我要选择图像的src,其中img的alt等于给定值。下面我给出了要从中提取图像的html: ]]] 对于想要知道我如何获得图像源的任何人,我都做了以下工作。 // Get all the img tags in the node (two in this case) var images = htmlNode.Descendants("img").ToArray(); // Image source // we know that we do NOT want the first image, just the second and that the first // attribute in that second image is the image source (what we want). // So we get the 2nd image and the first attribute of that image originalDetails.CoverImage = images[1].Attributes.FirstOrDefault().Value; 我知道这不是最好的方法,但是可以完成工作。

回答 1 投票 0

SelectNodes无法正确提取所有子节点

我正在尝试从网页中获取产品列表。我正在使用下面的网址来测试我的应用程序,但它仅提取了40个项目中的10个。我一直在调试器中四处寻找,......>

回答 2 投票 0

C#如何压缩大字符串? [重复]

我从HTML Agility Pack中收到了字符串-已清除,并且没有标签:string cleanText = htmlDoc.DocumentNode.InnerText;现在我的问题是如何清除所有字符,如空格,新...

回答 2 投票 0

如何使用HTML Agility Pack删除特定标签内的跨度?

我有一个示例html,下面我想使用html敏捷包删除注释标记内的所有span标记

回答 1 投票 1

如何使用Fizzler / HtmlAgilityPack选择具有名称空间的html元素?

我正在使用Fizzler / HtmlAgilityPack来解析和提取ASP.NET页面文件中的元素。在asp.net文件中,我们还使用Telerik控件,例如 要提取此...

回答 1 投票 0

在c#中在[]之后在HTML中添加div 要求:在字符串的body标记后添加自定义html] 我用htmlagilitypack这样解决: StringBuilder sb = new StringBuilder(); sb.Append(customStringWithHtmlContent) HtmlDocument htmlDoc = new HtmlDocument(); htmlDoc.LoadHtml(sb.ToString()); // Create new node from newcontent HtmlNode newNode = HtmlNode.CreateNode("<div>" + someStringWithAdditionalContent + "</div>"); // Get body node HtmlNode body = htmlDoc.DocumentNode.SelectSingleNode("//body"); if (body != null) {// Add new node as first child of body body.PrependChild(newNode); } var docContent = htmlDoc.DocumentNode.InnerHtml; 看起来不错,但在某些html页面中,html结构已更改,封闭的div标签已移动,并且html呈丑陋呈现]] 第二个解决方案: if (sb.ToString().Contains("<body>")) { sb.Replace("<body>", "<body><div>" + someStringWithAdditionalContent + "</div>"); } 看起来不错,但不适用于具有类似属性的身体 <body style="someAttr:value ..." ...> 一些想法?其他解决方案? 要求:在字符串中的body标记后添加自定义html,我用htmlagilitypack这样解决:StringBuilder sb = new StringBuilder(); sb.Append(customStringWithHtmlContent)HtmlDocument ... RegEx?可能还有一种更优雅的方式,但基本思想: string input = "<body style=\"someAttr\"><tag>sdsdsa</tag></body>"; Regex Pattern = new Regex(@"(<body.*?>)(.*?)(<\/body>)", RegexOptions.Compiled); var updatedText = Pattern.Replace(input, match => { string newMatch = match.Groups[2].Value; string newContent = "<div>" + "someStringWithAdditionalContent" + "</div>"; return match.Groups[1].Value + newContent + newMatch + match.Groups[3].Value; }); Console.WriteLine(updatedText); 输出: <body style="someAttr"><div>someStringWithAdditionalContent</div><tag>sdsdsa</tag></body>

要求:在字符串中的body标记后添加自定义html,我用htmlagilitypack这样解决:StringBuilder sb = new StringBuilder(); sb.Append(customStringWithHtmlContent)HtmlDocument ...

回答 1 投票 0

HTML Agility Pack忽略标签

我用C#编写了以下代码,以检索网页中表的内容(获得许可后)。它几乎可以完美运行,但是某些单元格包含多个值,例如...

回答 1 投票 0

需要示例HtmlAgilityPack

我再试一次以小品为例。实际上,我具有以下代码:导入系统导入System.Xml导入HtmlAgilityPack导入System.Net导入System.IO导入System.Collections ....

回答 1 投票 0

有没有一种方法可以根据文档结构不确定的关键字来抓取HTML元素列表?

我正在构建一个可在许多站点上使用的刮板(太多,无法使用Web刮板工具(例如Octoparse)手动刮板)。每个站点的结构可能会有所不同。某些网站可能有数据...

回答 1 投票 0

Python的:数据传输对象

问题我有我需要解析从我的客户网页/接入各种HTML表格上的数据可能会跨表(列的长度)而变化。所以,我做了什么是创建一个类...

回答 2 投票 4

HTML敏捷包未能凑图像

好吧,我发现它的网站使用htmlagility包vb.net宣布从DIV刮图像的代码。我遵循的程序,我什么也没得到。这是HTML源:

回答 1 投票 0

获取类名的所有跨度?

这似乎是很基本的给我,但我似乎无法得到它的工作,我已经尝试了所有的例子并不为我工作。我只是试图让所有的跨度内文和班上的页面上...

回答 1 投票 0

试图选择一个HTML节点时“表达式必须节点集”

我试图让使用HtmlAgilityPack HTML文件的特定部分。输入HTML文件(简体和清理): &...

回答 1 投票 0

解析不同的行号的HTML表格

我试图解析HTML表,但表不与不同的行号列相等,下(表)中的所有表我选择(形式)作为SingleNode,但(TBODY)来到该行没有(TD)。 ..

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.