Vespa 如何解决大数据应用中的内存限制

问题描述 投票:0回答:1

我尝试在 Vespa 中使用 HNSW 索引超过 2 亿个文档,但随着文件数量的增加,它会消耗大量内存。我的服务器有 64GB 内存,我估计在 Vespa 中存储所有数据需要 750GB。 Vespa 有没有办法在不添加更多内存或服务器的情况下高效管理这个 750GB 的数据集?

理想情况下,我想要能够保持搜索质量、避免向量维数或 HNSW 参数减少的解决方案。

我搜索过官方文档但没有找到合适的答案。当达到内存限制时,会发生提要阻塞,或者交换磁盘的一切都变得非常慢。有人知道如何有效地处理这个问题吗?

database semantics vespa
1个回答
0
投票

向量必须驻留在内存中才能获得合理的性能,因为它们需要在写入和查询期间随机访问。您只需支付相应费用即可。

从技术上讲,您可以声明向量属性分页以将其从 RAM 中换出,但是这样写入和查询都会变得非常慢。

© www.soinside.com 2019 - 2024. All rights reserved.