使用 XWPFWordExtractor 提取文本时出现问题

Question

我有一个具有此依赖项的 Java 应用程序

 <dependency>
     <groupId>org.apache.poi</groupId>
     <artifactId>poi-ooxml</artifactId>
     <version>5.2.3</version>
 </dependency>

还有这段代码

 XWPFWordExtractor extractor = new XWPFWordExtractor(new XWPFDocument(inputStream));
 return extractor.getText();

我正在尝试从Word文档（.docx）中提取其中的所有文本。文本被提取，但如果例如文档内有一个文本框，则该文本框将被忽略，因此内部的文本也会被忽略。

如何提取整个文本？包括文本框以及其他可能包含文本的元素？

Answer 1

我通过使用 Apache Tika 解决了我的问题。

AutoDetectParser parser = new AutoDetectParser();
BodyContentHandler handler = new BodyContentHandler(-1);
Metadata metadata = new Metadata();
parser.parse(inputStream, handler, metadata);
return handler.toString();

使用 XWPFWordExtractor 提取文本时出现问题

问题描述投票：0回答：1

1个回答

最新问题

使用 XWPFWordExtractor 提取文本时出现问题

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1