unstructured
包从具有分层节标题的 pdf 文档中提取干净的目录?
我有一个多页长的 pdf 文档。文档中的文本分为多个部分,每个部分都有一个标题/标题。每个部分都可能分为具有自己的标题/标题的小节。这些小节可以有小节等。
unstructured
包自动从文档中提取目录?目录应与我的文档中的章节和小节具有相同的层次结构。
如果我的文档如下所示:
这是第 1 节的标题
啦啦啦啦。
这是第1.1小节的标题
更多啦啦啦啦。
这是第 1.1.1 小节的标题
更多啦啦啦啦。
这是第1.2小节的标题
更多啦啦啦啦。
这是第2节的标题
更啦啦啦。
然后我想从中提取一个目录,其中包括标题的层次结构。例如:
{
"This is the title of section 1": 0,
"This is the title of subsection 1.1": 1,
"This is the title of subsubsection 1.1.1": 2,
"This is the title of subsection 1.2": 1,
"This is the title of section 2": 0,
}
其中数字表示标题在层次结构中的级别。
我也在研究这个。你找到答案了吗?谢谢!