使用 XWPFWordExtractor 提取文本时出现问题

问题描述 投票:0回答:1

我有一个具有此依赖项的 Java 应用程序

 <dependency>
     <groupId>org.apache.poi</groupId>
     <artifactId>poi-ooxml</artifactId>
     <version>5.2.3</version>
 </dependency>

还有这段代码

 XWPFWordExtractor extractor = new XWPFWordExtractor(new XWPFDocument(inputStream));
 return extractor.getText();

我正在尝试从Word文档(.docx)中提取其中的所有文本。 文本被提取,但如果例如文档内有一个文本框,则该文本框将被忽略,因此内部的文本也会被忽略。

如何提取整个文本?包括文本框以及其他可能包含文本的元素?

java maven apache-poi docx
1个回答
0
投票

我通过使用 Apache Tika 解决了我的问题。

AutoDetectParser parser = new AutoDetectParser();
BodyContentHandler handler = new BodyContentHandler(-1);
Metadata metadata = new Metadata();
parser.parse(inputStream, handler, metadata);
return handler.toString();
© www.soinside.com 2019 - 2024. All rights reserved.