Apache Tika Server提供了Rest API,用于从文档中提取文本。也可以设置特定的请求标头参数,例如X-Tika-PDFOcrStrategy
。例如:
$ curl -T test/Dokument01.pdf http://localhost:9998/tika --header "X-Tika-PDFOcrStrategy: ocr_only"
从关于tika的许多不同文档中,我发现这些文档中的附加标头参数:
X-Tika-OCRLanguage: eng
X-Tika-PDFextractInlineImages: true | false
X-Tika-PDFOcrStrategy: ocr_only | ocr_and_text_extraction
X-Tika-OCRoutputType: hocr
但是似乎没有有关如何使用X-Tika-.....?
标头参数或不支持哪些参数的文档。
例如,我想知道是否可以用类似的方法覆盖ImageType模式或DPI:
X-Tika-PDFocrImageType: rgb
X-Tika-PDFocrDPI: 100
我的问题是:这些参数遵循哪些标头参数以及哪些命名约定?
处理X-Tika-OCR
和X-Tika-PDF
标头的代码是TikaResource.processHeaderConfig。
然后通过反射将这些标头后缀和值映射到TesseractOCRConfig和PDFParserConfig配置对象上。
因此,要查看可以设置的X-Tika
标头,请在配置类上查找要进行调整的选项(Tesseract或PDF),然后建立名称,然后设置标头。如果您不确定该选项的作用或采用的值,请查看JavaDocs中将被调用的基础setter方法。
例如,对于PDF上的setExtractInlineImages,它映射到X-Tika-PDFextractInlineImages