html-parsing 相关问题

HTML解析是消耗HTML文档的序列化并产生可以以编程方式工作的表示的过程 - 例如,为了从中提取数据。 HTML规范定义了用于解析HTML的标准算法,该算法在所有主流浏览器中实现。

避免使用DOMDocument :: saveHTML自动关闭打开的HTML元素

我的目标是将自定义数据属性添加到div和ul容器,如果该容器使用特定的类。我从包含有效HTML(包含其内容和...

回答 1 投票 2

Python的解析HTML用转义字符

我试图从一个网站抽取数据,但数据表是由JavaScript渲染。而不是使用像硒工具来生成页面并运行该脚本的,我却发现了脚本...

回答 1 投票 0

如何将HTML对象的字符串类型转换?

我使用jQuery的方法来得到一些类型的HTML对象中:var含量= $( '#cke_ckeditor IFRAME')的内容()找到(” cke_show_borders。)的clone();。然后我想将其转换为字符串类型:执行console.log(...

回答 6 投票 10

动态添加使用香草JS内容表

我想尽可能多的行添加为我在我的数据库表的用户。我通过Ajax请求获得来自后端用户的信息,那么当响应(JSON)到我的代码把它传递给我傻...

回答 3 投票 0

解析HTML文档与蟒蛇

我对蟒蛇全新的,我试图解析HTML文档中删除标记,我只是想保持标题和正文从报纸网站,我以前在我的下载...

回答 1 投票 0

用PHP简单的HTML DOM解析器查找并删除HTML标签

这是我使用的代码:包括“simple_html_dom.php”; $ HTML = file_get_html( '的index.html');回声$ HTML的“发现( 'TR',15);这将找到表的行15。我想要做的是去除...

回答 3 投票 5

编程提取与C / C从HTML文件表格++

我正在寻找从HTML文件中提取表更好的想法。现在,我使用整洁(http://tidy.sourceforge.net/)一个HTML文件转换为XHTML,然后我用rapidxml解析XML ....

回答 2 投票 2

从Facebook的公开信息发表刮图像的元数据

这是我的追求,以获得来自Facebook的公开讯息中一些数据的后续问题。我试图采集图像元数据的这段时间(图像的URL)。帖子的链接工作正常,但一些帖子返回空...

回答 1 投票 0

使用XPath提取部分字符串匹配的HTML标记

HTML代码是盲目的,它包含在HTML字符串“价格”。这部分字符串必须使用xpath.It应该返回特定HTML text.If文本匹配(部分匹配)匹配...

回答 2 投票 3

如何通过ID来提取一个HTML元素的文本,并分配给一个PHP变量?

我有这个: hello and I want to extract the hello word using its id and assign this to a php var but I don't have an idea. If it ...

回答 3 投票 4

python:获取打开和关闭html标签

问题:如何使用python(3.6)查找所有打开和关闭HTML标记的文本。这需要是确切的文本,保留空格和潜在的非法html:#input html =“”“ ...

回答 2 投票 2

游泳Ruta:使HTMLAnnotator注释更多标签

我对UIMA Ruta比较陌生,我需要处理HTML文档。我已经有一个ProcessHTML.ruta脚本,它与文档中的基本相同(稍作调整):ENGINE ......

回答 1 投票 0

使用正则表达式解析损坏的Apache日志

我正在编写一个Python 3.7.2程序来解析Apache日志,寻找所有成功的响应代码。我现在已经编写了正则表达式,它将所有正确的Apache日志条目解析为单个...

回答 1 投票 0

不确定如何分离我刮过的数据列

我从一个espn网站上删除了奥尔巴尼女子篮球队的赛程数据,赢/输列的格式如下:W 77-70,这意味着奥尔巴尼赢得了77-70。我想要 ...

回答 2 投票 2

找不到我知道的文件中的标签 - find_all()返回[]

我正在使用bs4来刮取https://www.khanacademy.org/profile/DFletcher1990/ khanacademy上的一个用户配置文件。我正在尝试获取用户统计数据(加入日期,获得能量点,视频......

回答 1 投票 2

使用BeautifulSoup查找名为data-stats的属性

我目前正在制作一个网络刮刀,可以让我从足球运动员那里获取统计数据。通常,如果我可以抓住div,这将是一个简单的任务,但是,这个网站使用属性...

回答 2 投票 1

Selenium + BS4检索隐藏元素

我编写了以下代码来检索带有“tab-statistics-1-statistic”类的div。这个嵌套在“statistics-content”div中。 soup.find(ID = “统计的内容”)。找到(ID =“标签-...

回答 2 投票 0

BeautifulSoup模块未检测到任何标签

我是python的新手,并尝试做一个项目,我打开亚马逊产品页面上的所有评论链接。为什么不能使用soup.select()方法为python找到合适的html标签...

回答 2 投票 1

如何在维基百科页面中刮取一页的多个表格?

我试图将下一页的所有表格划分为一个大表; https://en.wikipedia.org/wiki/List_of_QI_episodes但问题是我的代码似乎只下载Pilot表而没有...

回答 4 投票 3

提取文本:在带有Beautiful Soup的元素之后

我想提取文本:在元素之后。 06:25 vP 我有 ...

回答 1 投票 2

© www.soinside.com 2019 - 2024. All rights reserved.