我正在尝试从pdf文件中提取文本,以便使用Lucene对其进行索引。这是代码:
PDFParser parser = new PDFParser(new FileInputStream(f));
parser.parse();
String text = new PDFTextStripper().getText(parser.getPDDocument()); // stops here
parser.getPDDocument().close();
执行开始在注释中指示的行中无限期等待。我确定上一行已执行。
我正在使用pdfbox版本1.8。
有人可以帮我吗?
首先,我使用的是2.0.17版本(不是1.8)的PdfBox。
用于在pdf文件中获取文本的正确代码如下:
PDDocument doc = PDDocument.load(file);
PDFTextStripper stripper = new PDFTextStripper();
String content = stripper.getText(doc);
这可行!