如何使用 python 库将新数据添加到矢量搜索顶点 AI 中的现有索引

问题描述 投票:0回答:1

我熟悉像 weaviate 和 pinecone 这样的矢量数据库,并尝试将我的矢量迁移到 gcp。 我已将数据上传到存储桶,用它创建索引,并使用 python 部署端点并遵循本文档矢量搜索快速入门。查询对于索引工作正常。

现在我想将新数据添加到同一索引中(批量插入或 weaviate 或 pinecone 中的等效项),据我所知,可以通过 GUI 通过在编辑索引选项中进行批量更新来完成,但我无法弄清楚如何使用 python 客户端实现它。

如果这是一个愚蠢的问题,我很抱歉,我已经尝试弄清楚有一段时间了,文档让我感到困惑而不是帮助。

我查看了更新和重建索引updateIndex,但无法弄清楚这是否使用新数据从头开始创建整个索引,或者像weaviate或pinecone一样更新插入它们。

google-cloud-ml google-cloud-vertex-ai google-ai-platform vertex-ai-search
1个回答
0
投票

工作人员在谷歌云论坛上回答,这里

欢迎并感谢您接触我们的社区。 我相信这两个功能都没有批量数据处理(更新插入)。 更新索引会更新与索引关联的元数据,例如描述、标签或设置,而实际数据内容(向量和文档 ID)保持不变
重建索引从头开始重建整个索引,删除索引中的所有现有数据,然后使用请求中提供的数据重新创建索引 我希望我能为您提供有用的见解。

但是我确实认为这是可能的,只是截至目前(2024年3月)aiplatform还没有,aiplatformv1中有一个IndexService的方法,而不是aiplatform中。

有人在.NET中指出了这一点,在给工作人员的另一条回复中:

嘿,不确定 Python 的命名,但在 .NET 中,有一个类 IndexServiceClient 具有管理索引的所有方法。它有一个方法 UpsertDatapoints 来处理代表一批向量的 UpsertDatapointsRequest

© www.soinside.com 2019 - 2024. All rights reserved.