文本剥离程序停止并等待

问题描述 投票:0回答:1

我正在尝试从pdf文件中提取文本,以便使用Lucene对其进行索引。这是代码:

PDFParser parser = new PDFParser(new FileInputStream(f));
parser.parse();
String text = new PDFTextStripper().getText(parser.getPDDocument());   // stops here
parser.getPDDocument().close();

执行开始在注释中指示的行中无限期等待。我确定上一行已执行。

我正在使用pdfbox版本1.8。

有人可以帮我吗?

java-8 lucene pdfbox
1个回答
0
投票

首先,我使用的是2.0.17版本(不是1.8)的PdfBox。

用于在pdf文件中获取文本的正确代码如下:

PDDocument doc = PDDocument.load(file);
PDFTextStripper stripper = new PDFTextStripper();
String content = stripper.getText(doc);

这可行!

© www.soinside.com 2019 - 2024. All rights reserved.