html-parsing 相关问题

HTML解析是消耗HTML文档的序列化并产生可以以编程方式工作的表示的过程 - 例如,为了从中提取数据。 HTML规范定义了用于解析HTML的标准算法,该算法在所有主流浏览器中实现。

解析HTML文件并存储标题 和子标题 在另一个文件目录(Python)中 ] >> 所以我的HTML页面很长。我实际上将.docx文档转换为HTML,因为我希望所有标题都将其作为副标题存储在单独的文件中,因为以后我想复制相同的文件(但删除一些内容),所以我的想法是将一次解析HTML并一次存储所有标题和子标题,并且根据需要,我将仅获取需要的内容。 有人可以指导我使用哪个库,或者有我可能不知道的更简单,更智能的方法吗?请指导我。 非常感谢。 一个例子可以看作是: `1 INTRODUCTION 1.1 Purpose Some text for purposes 1.2 Terminology Some text for Terminology 2 TESTING 2.1 Dependencies Some text some text some text 2.2 Testing Components Some text some text some text 2.3 Test Architecture Some text some text some text 并且我希望它们像存储在这些文件夹中的所有文本一样,保存在不同的文件夹中。仅按字面意思进行复制和粘贴,但保留正确的文件夹和所有HTML内容。 `/home/user/Projects/HTML_Parser ├── main.py/ │ ├── __init__.py │ ├── db.py │ ├── schema.sql │ ├── auth.py │ ├── blog.py │ ├── templates/ │ └── static/ │ └── style.css ├── 1.INTRODUCTION/ │ ├── 1.1Purpose │ └── 1.2Terminology └── 2.TESTING │ ├── 2.1Dependencies │ └── 2.2TestingComponents └── 2.3TestArchitecture ` 所以我的HTML页面很长。实际上,我将.docx文档转换为HTML,因为我希望所有标题都将其存储在单个文件中,因为以后我希望...

所以我的HTML页面很长。实际上,我将.docx文档转换为HTML,因为我希望所有标题都将其存储在单个文件中,因为以后我希望...

回答 2 投票 0


从BeautifulSoup获取课程数据

我正在尝试使用BeautifulSoup从HTML页面获取类数据。数据如下所示: “我很自私,没有耐心,有点不安全。 ...

回答 1 投票 0

如何防止DOMDocument将结果包装在 标签中?

此主题的点击量达一百万,但似乎没有一个对我有用。所以我不得不再问一次。说,如果我有这样的话:$ html =“” PHP“已记录在

回答 1 投票 1

如何正确捕捉两个图案之间的多条线

我有一个html文件,我正在尝试搜索一个模式,当我找到它时,打印设置的模式之间的所有行。就我而言,这是“ pre和/ pre”之间的所有内容...

回答 1 投票 -1

GatsbyJS HTML React Parser-解析ACF所见即所得字段

我正在尝试在我的WordPress / Gatsby构建中将ACF Wysiwyg编辑器输出为HTML。我创建了一个字段,但是当我运行gatsby开发时,文本显示如下:

回答 1 投票 1

GatsbyJS HTML React Parser

我正在尝试在我的WordPress / Gatsby构建中将ACF Wysiwyg编辑器输出为HTML。我创建了一个字段,但是当我运行gatsby开发时,文本显示如下:

回答 1 投票 0

如何通过Nokogiri获取页面上的特定可见字符串

[目前,我能够使用Nokogiri解析网站并从页面中获取特定元素。但是,我需要能够抓取用户可见的特定字符串,例如“ Out of stock”:...

回答 1 投票 0

如何清理HTML字符串以使用lxml在python中解析它?

我有一个包含HTML代码的python字符串,来自我要使用lxml库解析的JSON。该字符串包含几个转义字符和其他特殊字符。如何清除此代码...

回答 2 投票 0

从DOMParser获取所有HTML内容,不包括外部标签

我在以下代码中使用DOMParser。让doc = new DOMParser()。parseFromString('示例文本

回答 2 投票 0

Beautiful Soup不会解析所有标签

我已附上我要抓取的网站HTML的屏幕截图,其中有一个表格,我想从其中的正文(它们显然存在)中的行中获取一些数据,...

回答 1 投票 0

从简单的html提取文本和(hlStart和hlEnd)标签

我有html / xml文件的以下部分:

回答 3 投票 0

致命错误:使用str_get_html时允许的内存大小已用尽的字节

我做了一个简单的请求,我从curl_exec($ ch)得到正确的响应;但是当我调用静态方法str_get_html时,我的结果总是相同的。致命错误:允许的内存大小为536870912 ...

回答 1 投票 0

Nodejs请求解析特殊字符

我正在使用nodejs请求模块来获取网站的一些HTML。网站的HTML代码中包含特殊字符,节点请求无法解析这些特殊字符。例如:äü或ö将是...

回答 1 投票 0

通过html标签循环

我正在尝试使用html解析器和beautifulsoup抓取网页。我正在尝试从某些标签获取文本。但是由于其中一些根本没有文本,因此我得到了那些属性错误...

回答 1 投票 0

如何将某个标签中的字符串更改为多个文件中的小写字母

我有以下要使用Python脚本在Windows 10中满足的要求:递归地将多个文件夹中的所有文件名更改为小写。为此,我使用了以下...

回答 1 投票 0

如何解析回调URL查询中的videoID并使用该videoID?

例如,当视频上传到视频共享平台时,它返回一个回调URL-通知视频已完全上传的URL。 Video Indexer API的文档,回调...

回答 1 投票 0

如何从需要登录的网站上抓取信息

我正在研究python网络抓取项目。我正在尝试从中获取数据的网站包含有关在印度销售的所有药品的信息。该网站要求用户登录后才能提供...

回答 1 投票 0

[使用BeautifulSoup从html表中提取值

我正在尝试使用bs4从html表中提取值,但是表的结构形式为: ]

回答 3 投票 2

使用BeautifulSoup从html表中获取值

我正在尝试使用bs4从html表中提取值,但是表的结构形式为: ]

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.