解析HTML文件并存储标题 和子标题 ,文本包含在另一个文件目录(Python)中的文本下]] 所以我的HTML页面很长。我实际上将.docx文档转换为HTML,因为我希望所有标题都将其作为副标题存储在单独的文件中,因为以后我想复制相同的文件(但删除一些内容),所以我的想法是将一次解析HTML并一次存储所有标题和子标题,并且根据需要,我将仅获取需要的内容。 有人可以指导我使用哪个库,或者有我可能不知道的更简单,更智能的方法吗?请指导我。 非常感谢。 一个例子可以看作是: `1 INTRODUCTION 1.1 Purpose Some text for purposes 1.2 Terminology Some text for Terminology 2 TESTING 2.1 Dependencies Some text some text some text 2.2 Testing Components Some text some text some text 2.3 Test Architecture Some text some text some text 并且我希望它们像存储在这些文件夹中的所有文本一样,保存在不同的文件夹中。仅按字面意思进行复制和粘贴,但保留正确的文件夹和所有HTML内容。 `/home/user/Projects/HTML_Parser ├── main.py/ │ ├── __init__.py │ ├── db.py │ ├── schema.sql │ ├── auth.py │ ├── blog.py │ ├── templates/ │ └── static/ │ └── style.css ├── 1.INTRODUCTION/ │ ├── 1.1Purpose │ └── 1.2Terminology └── 2.TESTING │ ├── 2.1Dependencies │ └── 2.2TestingComponents └── 2.3TestArchitecture ` 所以我的HTML页面很长。实际上,我将.docx文档转换为HTML,因为我希望所有标题都将其存储在单个文件中,因为以后我希望...

问题描述 投票:0回答:2

所以我的HTML页面很长。我实际上将.docx文档转换为HTML,因为我希望所有标题都将其作为副标题存储在单独的文件中,因为以后我想复制相同的文件(但删除一些内容),所以我的想法是将一次解析HTML并一次存储所有标题和子标题,并且根据需要,我将仅获取需要的内容。

python pandas beautifulsoup html-parsing python-docx
2个回答
1
投票

我建议将docx转换为html不是从我的经验中提取标题和子标题的正确方法。由于我们正在处理由不同作者创作的非结构化文档(.docx),因此,除非作者在创建文档时明确将其定义为子标题,否则没有确定标题下子标题的特定或定义的方法。


0
投票

您可能正在寻找beautifulsoup模块(文档here)。它设计用于抓取网页并从html解析内容。您可以只使用html解析部分。

© www.soinside.com 2019 - 2024. All rights reserved.