从pdf中提取段落

问题描述 投票:0回答:1

我正在对一本pdf电子书进行主题建模,需要逐段提取文本。为此我使用了apache pdfBox,它能有效地从pdf中提取文本。

PDFParser parser;
PDFTextStripper pdfStrip = null;
parsedText = pdfStrip.getText(pdDoc);

但我不能单独提取段落。这个工具提供了一个设置段落起始标识符的方法,但是我需要知道段落的中断标识符。

有什么方法可以做到这一点,或者是否有其他工具可以有效地进行段落提取?

pdf extract pdfbox
1个回答
1
投票

PdfNitro是我发现的最好的提取段落的工具。

这个工具唯一的问题是,它认为一个页面中断作为一个段落中断,否则它工作得很好。这个工具有14天的试用版可以测试。

© www.soinside.com 2019 - 2024. All rights reserved.