我有大量 PDF(大约 100 万个),并且这些 PDF 的大小各不相同。它们的长度可能从 5 页到前 100 页。我希望我的用户能够进行文本搜索(类似谷歌的输入框),并且相关的 PDF 结果也应该提供查看/下载 PDF 的选项。此外,这些 PDF 将每周不断添加(这个数字不会太高,可能每周大约 100-200 个 PDF)
目前我的应用程序正在使用 Postgres,所以只是想知道处理所述用例的最佳且具有成本效益的方法是什么。我使用 AWS 作为云提供商。
提前致谢!
有一个适合您的用例的完美集成。 Elasticsearch 工作场所搜索。
您可以在此处查看支持的文件类型。
以下是搜索结果示例。您可以
view/download
搜索结果。它还支持索引级和字段级身份验证。