带有 OCR 的 Elasticsearch 摄取附件处理器

问题描述 投票:0回答:1

我想从图像和扫描的 pdf 中摄取文本到 elastic 中,我知道摄取附件处理器是基于 Apache Tika 的,Apache Tika 应该有 Tesseract OCR 支持。

是否有可能以某种方式启用它?如果是,那不会违反弹性许可协议吗?

elasticsearch elastic-stack
1个回答
0
投票

要从图像、pdf 等中提取文本,您可以使用 fscrawler

我的建议:使用workplace search.

全文内容提取支持以下文件类型 全文提取:

.doc .docx .html .odt .one .md .markdown .paper .pdf .ppt .pptx .rtf .txt .xls .xlsx 格式的文本文件被规范化以减少 空白并最小化存储成本:

.md .markdown .paper .rtf .txt

https://www.elastic.co/guide/en/workplace-search/current/content-sources-content-extraction.html#content-sources-content-extraction-text

© www.soinside.com 2019 - 2024. All rights reserved.