带有 OCR 的 Elasticsearch 摄取附件处理器

问题描述投票：0回答：1

我想从图像和扫描的 pdf 中摄取文本到 elastic 中，我知道摄取附件处理器是基于 Apache Tika 的，Apache Tika 应该有 Tesseract OCR 支持。

是否有可能以某种方式启用它？如果是，那不会违反弹性许可协议吗？

elasticsearch

elastic-stack

1个回答

0
投票

要从图像、pdf 等中提取文本，您可以使用 fscrawler。

我的建议：使用workplace search.

全文内容提取支持以下文件类型全文提取：

.doc .docx .html .odt .one .md .markdown .paper .pdf .ppt .pptx .rtf .txt .xls .xlsx 格式的文本文件被规范化以减少空白并最小化存储成本：

.md .markdown .paper .rtf .txt

https://www.elastic.co/guide/en/workplace-search/current/content-sources-content-extraction.html#content-sources-content-extraction-text

带有 OCR 的 Elasticsearch 摄取附件处理器

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1