我正在对一本pdf电子书进行主题建模,需要逐段提取文本。为此我使用了apache pdfBox,它能有效地从pdf中提取文本。
PDFParser parser;
PDFTextStripper pdfStrip = null;
parsedText = pdfStrip.getText(pdDoc);
但我不能单独提取段落。这个工具提供了一个设置段落起始标识符的方法,但是我需要知道段落的中断标识符。
有什么方法可以做到这一点,或者是否有其他工具可以有效地进行段落提取?
PdfNitro是我发现的最好的提取段落的工具。
这个工具唯一的问题是,它认为一个页面中断作为一个段落中断,否则它工作得很好。这个工具有14天的试用版可以测试。