所以我的HTML页面很长。我实际上将.docx文档转换为HTML,因为我希望所有标题都将其作为副标题存储在单独的文件中,因为以后我想复制相同的文件(但删除一些内容),所以我的想法是将一次解析HTML并一次存储所有标题和子标题,并且根据需要,我将仅获取需要的内容。
我建议将docx转换为html不是从我的经验中提取标题和子标题的正确方法。由于我们正在处理由不同作者创作的非结构化文档(.docx
),因此,除非作者在创建文档时明确将其定义为子标题,否则没有确定标题下子标题的特定或定义的方法。
您可能正在寻找beautifulsoup
模块(文档here)。它设计用于抓取网页并从html解析内容。您可以只使用html解析部分。