我有一个具有此依赖项的 Java 应用程序
<dependency>
<groupId>org.apache.poi</groupId>
<artifactId>poi-ooxml</artifactId>
<version>5.2.3</version>
</dependency>
还有这段代码
XWPFWordExtractor extractor = new XWPFWordExtractor(new XWPFDocument(inputStream));
return extractor.getText();
我正在尝试从Word文档(.docx)中提取其中的所有文本。 文本被提取,但如果例如文档内有一个文本框,则该文本框将被忽略,因此内部的文本也会被忽略。
如何提取整个文本?包括文本框以及其他可能包含文本的元素?
我通过使用 Apache Tika 解决了我的问题。
AutoDetectParser parser = new AutoDetectParser();
BodyContentHandler handler = new BodyContentHandler(-1);
Metadata metadata = new Metadata();
parser.parse(inputStream, handler, metadata);
return handler.toString();