如何使用非结构化(python 包)创建目录

问题描述 投票:0回答:1

tl;博士

如何使用

unstructured
包从具有分层节标题的 pdf 文档中提取干净的目录?

更多细节

我有一个多页长的 pdf 文档。文档中的文本分为多个部分,每个部分都有一个标题/标题。每个部分都可能分为具有自己的标题/标题的小节。这些小节可以有小节等。

该文档没有目录页。如何使用

unstructured
包自动从文档中提取目录?目录应与我的文档中的章节和小节具有相同的层次结构。

示例

如果我的文档如下所示:

这是第 1 节的标题

啦啦啦啦。

这是第1.1小节的标题

更多啦啦啦啦。

这是第 1.1.1 小节的标题

更多啦啦啦啦。

这是第1.2小节的标题

更多啦啦啦啦。

这是第2节的标题

更啦啦啦。

然后我想从中提取一个目录,其中包括标题的层次结构。例如:

{
    "This is the title of section 1": 0,
    "This is the title of subsection 1.1": 1,
    "This is the title of subsubsection 1.1.1": 2,
    "This is the title of subsection 1.2": 1,
    "This is the title of section 2": 0,
}

其中数字表示标题在层次结构中的级别。

python nlp
1个回答
0
投票

我也在研究这个。你找到答案了吗?谢谢!

© www.soinside.com 2019 - 2024. All rights reserved.