有没有办法让 PDFBox / Tika 忽略字体信息，只提取文本？

问题描述投票：0回答：0

我正在使用 Tika 1.28.1 将文本从 PDF 中提取出来以编制索引

我遇到一些 PDF（如果我正确阅读 Yourkit）在内存中有千兆字节的字体信息，它们会导致我的应用程序 OOM 并死掉。现在，我根本不关心字体，我只想要文本。我宁愿忽略所有字体信息，而不是将其加载到内存中。