如何使用非结构化（python 包）创建目录

Question

tl；博士

如何使用

unstructured

包从具有分层节标题的 pdf 文档中提取干净的目录？

更多细节

我有一个多页长的 pdf 文档。文档中的文本分为多个部分，每个部分都有一个标题/标题。每个部分都可能分为具有自己的标题/标题的小节。这些小节可以有小节等。

该文档没有目录页。如何使用

unstructured

包自动从文档中提取目录？目录应与我的文档中的章节和小节具有相同的层次结构。

示例

如果我的文档如下所示：

这是第 1 节的标题

啦啦啦啦。

这是第1.1小节的标题

更多啦啦啦啦。

这是第 1.1.1 小节的标题

更多啦啦啦啦。

这是第1.2小节的标题

更多啦啦啦啦。

这是第2节的标题

更啦啦啦。

然后我想从中提取一个目录，其中包括标题的层次结构。例如：

{
    "This is the title of section 1": 0,
    "This is the title of subsection 1.1": 1,
    "This is the title of subsubsection 1.1.1": 2,
    "This is the title of subsection 1.2": 1,
    "This is the title of section 2": 0,
}

其中数字表示标题在层次结构中的级别。

Answer 1

我也在研究这个。你找到答案了吗？谢谢！

如何使用非结构化（python 包）创建目录

问题描述投票：0回答：1

tl；博士

更多细节

示例

1个回答

最新问题

如何使用非结构化（python 包）创建目录

问题描述 投票：0回答：1

tl；博士

更多细节

示例

1个回答

最新问题

问题描述投票：0回答：1