我想从图像和扫描的 pdf 中摄取文本到 elastic 中,我知道摄取附件处理器是基于 Apache Tika 的,Apache Tika 应该有 Tesseract OCR 支持。
是否有可能以某种方式启用它?如果是,那不会违反弹性许可协议吗?
要从图像、pdf 等中提取文本,您可以使用 fscrawler。
我的建议:使用workplace search.
全文内容提取支持以下文件类型 全文提取:
.doc .docx .html .odt .one .md .markdown .paper .pdf .ppt .pptx .rtf .txt .xls .xlsx 格式的文本文件被规范化以减少 空白并最小化存储成本:
.md .markdown .paper .rtf .txt