Apache Tika Server-请求标头参数？

Question

Apache Tika Server提供了Rest API，用于从文档中提取文本。也可以设置特定的请求标头参数，例如X-Tika-PDFOcrStrategy。例如：

$ curl -T test/Dokument01.pdf http://localhost:9998/tika --header "X-Tika-PDFOcrStrategy: ocr_only"

从关于tika的许多不同文档中，我发现这些文档中的附加标头参数：

X-Tika-OCRLanguage: eng
X-Tika-PDFextractInlineImages: true | false
X-Tika-PDFOcrStrategy: ocr_only  |  ocr_and_text_extraction
X-Tika-OCRoutputType: hocr

但是似乎没有有关如何使用X-Tika-.....?标头参数或不支持哪些参数的文档。

例如，我想知道是否可以用类似的方法覆盖ImageType模式或DPI：

X-Tika-PDFocrImageType: rgb
X-Tika-PDFocrDPI: 100

我的问题是：这些参数遵循哪些标头参数以及哪些命名约定？

Answer 1

处理X-Tika-OCR和X-Tika-PDF标头的代码是TikaResource.processHeaderConfig。

然后通过反射将这些标头后缀和值映射到TesseractOCRConfig和PDFParserConfig配置对象上。

因此，要查看可以设置的X-Tika标头，请在配置类上查找要进行调整的选项（Tesseract或PDF），然后建立名称，然后设置标头。如果您不确定该选项的作用或采用的值，请查看JavaDocs中将被调用的基础setter方法。

例如，对于PDF上的setExtractInlineImages，它映射到X-Tika-PDFextractInlineImages

Apache Tika Server-请求标头参数？

问题描述投票：0回答：1

1个回答

最新问题

Apache Tika Server-请求标头参数？

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1