如何高效地查找文本文档中的所有食物名称

问题描述 投票:0回答:2

我想快速扫描聊天对话 - 接近实时 - 并检测其中的任何食物名称。我有一个大约 400K 食物的数据库,因此仅在内存中使用正则表达式的简单解决方案无法扩展。

我有一个数据库(Postgres),我有一种编程语言(rails)。

有什么想法吗?

ruby-on-rails postgresql full-text-search
2个回答
0
投票

将 400k 个单词作为一个字符串,每个单词用一些空格分隔,然后从聊天字符串创建正则表达式,并使用单词锚将其与列表字符串匹配。


0
投票

考虑使用 PostgreSQL 的全文搜索、预处理文本、批处理(如果实时不是必需的)、使用缓存、定义置信度标准,并使用并行处理进行优化,以有效地在聊天对话中定位食物名称并使用数据库进行扩展40万种食物。可以选择结合机器学习和自然语言处理来提高准确性。 希望它有效:)

© www.soinside.com 2019 - 2024. All rights reserved.