解析HTML文件并存储标题和子标题，文本包含在另一个文件目录（Python）中的文本下]] 所以我的HTML页面很长。我实际上将.docx文档转换为HTML，因为我希望所有标题都将其作为副标题存储在单独的文件中，因为以后我想复制相同的文件（但删除一些内容），所以我的想法是将一次解析HTML并一次存储所有标题和子标题，并且根据需要，我将仅获取需要的内容。有人可以指导我使用哪个库，或者有我可能不知道的更简单，更智能的方法吗？请指导我。非常感谢。一个例子可以看作是： `1 INTRODUCTION 1.1 Purpose Some text for purposes 1.2 Terminology Some text for Terminology 2 TESTING 2.1 Dependencies Some text some text some text 2.2 Testing Components Some text some text some text 2.3 Test Architecture Some text some text some text 并且我希望它们像存储在这些文件夹中的所有文本一样，保存在不同的文件夹中。仅按字面意思进行复制和粘贴，但保留正确的文件夹和所有HTML内容。 `/home/user/Projects/HTML_Parser ├── main.py/ │ ├── __init__.py │ ├── db.py │ ├── schema.sql │ ├── auth.py │ ├── blog.py │ ├── templates/ │ └── static/ │ └── style.css ├── 1.INTRODUCTION/ │ ├── 1.1Purpose │ └── 1.2Terminology └── 2.TESTING │ ├── 2.1Dependencies │ └── 2.2TestingComponents └── 2.3TestArchitecture ` 所以我的HTML页面很长。实际上，我将.docx文档转换为HTML，因为我希望所有标题都将其存储在单个文件中，因为以后我希望...

问题描述投票：0回答：2

所以我的HTML页面很长。我实际上将.docx文档转换为HTML，因为我希望所有标题都将其作为副标题存储在单独的文件中，因为以后我想复制相同的文件（但删除一些内容），所以我的想法是将一次解析HTML并一次存储所有标题和子标题，并且根据需要，我将仅获取需要的内容。

python

pandas

beautifulsoup

html-parsing

python-docx

2个回答

1
投票

我建议将docx转换为html不是从我的经验中提取标题和子标题的正确方法。由于我们正在处理由不同作者创作的非结构化文档（.docx），因此，除非作者在创建文档时明确将其定义为子标题，否则没有确定标题下子标题的特定或定义的方法。

0
投票

您可能正在寻找beautifulsoup模块（文档here）。它设计用于抓取网页并从html解析内容。您可以只使用html解析部分。