有没有办法让 PDFBox / Tika 忽略字体信息,只提取文本?

问题描述 投票:0回答:0

我正在使用 Tika 1.28.1 将文本从 PDF 中提取出来以编制索引

我遇到一些 PDF(如果我正确阅读 Yourkit)在内存中有千兆字节的字体信息,它们会导致我的应用程序 OOM 并死掉。现在,我根本不关心字体,我只想要文本。我宁愿忽略所有字体信息,而不是将其加载到内存中。

这个有配置选项吗?我在 PDFParserConfig 上没有看到任何明显的东西,除了 setExtractFontNames(),这听起来像是只控制名称输出。

还有其他减少内存使用的建议吗?

memory fonts pdfbox apache-tika
© www.soinside.com 2019 - 2024. All rights reserved.