html-parsing 相关问题

HTML解析是消耗HTML文档的序列化并产生可以以编程方式工作的表示的过程 - 例如,为了从中提取数据。 HTML规范定义了用于解析HTML的标准算法,该算法在所有主流浏览器中实现。

'._ElementUnicodeResult'的问题

在尝试帮助其他用户解决问题时,我自己遇到了以下问题:目标是在页面上找到葡萄酒列表的原产国。所以我们从:...开始

回答 1 投票 1

在PHP中删除表上的rowspan

有这个表我想加载到一个多维数组。问题是由于表具有rowspan值,每行可能具有不同的单元格数。所以我必须删除rowspan并添加...

回答 2 投票 7

将root.xpath()与regex一起使用将返回lxml.etree._ElementUnicodeResult

我正在生成一个模型,以找出一段文本在HTML文件中的位置。所以,我有一个数据库,里面有来自不同报纸文章的大量数据,包括标题,发布日期......

回答 1 投票 1

Haskel:如何强制评估函数并按顺序写入文件?

我在Haskell中遇到了懒惰IO的问题。尽管在该领域阅读了其他问题,但我无法弄清楚如何解决我的具体案例。我正在使用手术刀包解析html。用例......

回答 1 投票 3

使用lxml提取两个HTML标题之间的所有文本

我正在尝试使用Python中的lxml来解析HTML页面。在HTML中有这样的结构: Title 一些带有其他标签的文字......

回答 2 投票 2

获取BeautifulSoup以正确解析php标记或忽略它们

我目前需要解析很多.phtml文件,获取特定的html标签并为它们添加自定义数据属性。我正在使用python beautifulsoup来解析整个文档并添加标签,这......

回答 1 投票 0

是否有任何python包基本上将呈现的HTML结构转换为JSON / YAML格式[关闭]

例如,HTML中存在代码 段落元素的示例。 咖啡 茶 牛奶

回答 1 投票 -1

HTML Agility包 - 解析表

我想使用HTML敏捷包来解析复杂网页中的表,但我在对象模型中丢失了。我查看了链接示例,但没有找到任何表数据。我可以吗 ...

回答 5 投票 51

使用Jsoup从HTML页面提取数据

我试图从https://secure.runescape.com/m=hiscore_oldschool/hiscorepersonal.ws?user1=Feed%20Meh%20Dog获取我的每个技能水平这是一个表但我没有在任何地方看到表ID 。我只需要 ...

回答 1 投票 -1

如何缩小HTML代码?

我的想法是以某种方式缩小服务器端的HTML代码,因此客户端接收的字节数更少。 “缩小”是什么意思?没有拉链。更像是,例如,jQuery创建者使用.min.js版本。在......

回答 5 投票 8

Beautifulsoup无法找到名称中带有连字符的类

我在运行Python 2.7.8的MacOSX上使用BeautifulSoup4。我无法从以下HTML代码中提取信息

回答 3 投票 1

使用Python中的BeautifulSoup提取表标记值?

我正在尝试编写一个Python脚本来从此页面上的表中提取一些标记值:https://azure.microsoft.com/en-us/pricing/details/virtual-machines/windows/我是包括......

回答 3 投票 1

自定义HTMLParser,正则表达式无法正确返回

我正在开发一个程序,它根据不同的正则表达式从HTML文件中抓取一些信息。我遇到了以下代码的错误我的HTMLParser子类:class ...

回答 1 投票 0

如何使用BeautifulSoup4从HTML表中提取所有项目?

这是我正在抓的更大网站的HTML:https://pastebin.com/LZ3mJKv0基本上我希望我的输出为:品种:西施价格:$ 850性别:男昵称:韦德年龄:16 ...

回答 1 投票 0

Python BeautifulSoup html.parser无效

我有一个脚本来从亚马逊提取书籍信息,这些信息之前成功运行但今天失败了。我无法确切地知道出了什么问题,但我假设它...

回答 2 投票 0

使用Haskell进行网页搜索

使用Haskell抓取网站的库的当前状态是什么?我正努力让自己在Haskell做更多快速的一次性任务,以帮助提高我的舒适度......

回答 4 投票 50

使用beautifulSoup从HTML中提取文本

我试图解析一个美丽的汤4的HTML,但无法获取数据 A Show

回答 1 投票 0

SERE0014:非法HTML字符 - 解析控制字符时出现十进制129异常

最近在一个案例中,我发现了一个字符串,其中包含一个控制字符,我们将其保存到数据库中并尝试从中创建一个xml和一个HTML文件。它正在DB中正确保存...

回答 1 投票 0

如何使用bash脚本从HTML响应中获取锚标记中的文本[关闭]

我的HTML内容如下: Index Index of /Test/

回答 2 投票 -3

我如何获得srcs中的值类似于示例共享波纹管?

我的代码获取页面中的所有链接:来自bs4 import BeautifulSoup导入请求r = requests.get(“http://site-to.crawl”)data = r.text soup = BeautifulSoup(data)for soup in soup 。找到所有('...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.