跟踪更改的docx在Apache Tika中产生错误的输出

Question

我正在使用apache tika解析docx文件。

AutoDetectParser parser = new AutoDetectParser();
ContentHandler contentHandler = new BodyContentHandler();
inputStream = new BufferedInputStream(new FileInputStream(inputFileName));
Metadata metadata = new Metadata();

OfficeParserConfig officeParserConfig = new OfficeParserConfig();
officeParserConfig.setIncludeDeletedContent(false);
parseContext.set(OfficeParserConfig.class, officeParserConfig);

parser.parse(inputStream, contentHandler, metadata, parseContext);
System.out.println(contentHandler.toString());

当我发送track_revised docx文件时，它会添加所有删除的文本和实际文本以及插入的文本。有没有办法告诉解析器排除已删除的文本？

Answer 1

我确实搞清楚了

AutoDetectParser parser = new AutoDetectParser();
ContentHandler contentHandler = new BodyContentHandler();
inputStream = new BufferedInputStream(new FileInputStream(inputFileName));
Metadata metadata = new Metadata();
ParseContext parseContext = new ParseContext();
OfficeParserConfig officeParserConfig = new OfficeParserConfig();
officeParserConfig.setUseSAXDocxExtractor(true);
officeParserConfig.setIncludeDeletedContent(false);
parseContext.set(OfficeParserConfig.class, officeParserConfig);

parser.parse(inputStream, contentHandler, metadata, parseContext);
System.out.println(contentHandler.toString());

跟踪更改的docx在Apache Tika中产生错误的输出

问题描述投票：0回答：1

1个回答

最新问题

跟踪更改的docx在Apache Tika中产生错误的输出

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1