如何以经济高效的方式启用大型 pdf 的全文搜索?

问题描述 投票:0回答:1

我有大量 PDF(大约 100 万个),并且这些 PDF 的大小各不相同。它们的长度可能从 5 页到前 100 页。我希望我的用户能够进行文本搜索(类似谷歌的输入框),并且相关的 PDF 结果也应该提供查看/下载 PDF 的选项。此外,这些 PDF 将每周不断添加(这个数字不会太高,可能每周大约 100-200 个 PDF)

目前我的应用程序正在使用 Postgres,所以只是想知道处理所述用例的最佳且具有成本效益的方法是什么。我使用 AWS 作为云提供商。

提前致谢!

node.js postgresql elasticsearch full-text-search amazon-opensearch
1个回答
2
投票

有一个适合您的用例的完美集成。 Elasticsearch 工作场所搜索

  1. 将所有PDF文件上传到Google Drive或Dropbox
  2. 启用从Google Drive到elasticsearch的摄取
  3. 搜索您的数据 它将通过计划任务同步 Google Drive 和 Elasticsearch 之间的数据,例如每2 hours

您可以在此处查看支持的文件类型。

以下是搜索结果示例。您可以

view/download
搜索结果。它还支持索引级和字段级身份验证。

© www.soinside.com 2019 - 2024. All rights reserved.