Apache Tika Server-请求标头参数?

问题描述 投票:0回答:1

Apache Tika Server提供了Rest API,用于从文档中提取文本。也可以设置特定的请求标头参数,例如X-Tika-PDFOcrStrategy。例如:

$ curl -T test/Dokument01.pdf http://localhost:9998/tika --header "X-Tika-PDFOcrStrategy: ocr_only"

从关于tika的许多不同文档中,我发现这些文档中的附加标头参数:

X-Tika-OCRLanguage: eng
X-Tika-PDFextractInlineImages: true | false
X-Tika-PDFOcrStrategy: ocr_only  |  ocr_and_text_extraction
X-Tika-OCRoutputType: hocr

但是似乎没有有关如何使用X-Tika-.....?标头参数或不支持哪些参数的文档。

例如,我想知道是否可以用类似的方法覆盖ImageType模式或DPI:

X-Tika-PDFocrImageType: rgb
X-Tika-PDFocrDPI: 100

我的问题是:这些参数遵循哪些标头参数以及哪些命名约定?

apache-tika tika-server
1个回答
0
投票

处理X-Tika-OCRX-Tika-PDF标头的代码是TikaResource.processHeaderConfig

然后通过反射将这些标头后缀和值映射到TesseractOCRConfigPDFParserConfig配置对象上。

因此,要查看可以设置的X-Tika标头,请在配置类上查找要进行调整的选项(TesseractPDF),然后建立名称,然后设置标头。如果您不确定该选项的作用或采用的值,请查看JavaDocs中将被调用的基础setter方法。

例如,对于PDF上的setExtractInlineImages,它映射到X-Tika-PDFextractInlineImages

© www.soinside.com 2019 - 2024. All rights reserved.