如何自动将 .txt 从 GCS 提取到 Vertex AI 数据存储中?

问题描述 投票:0回答:1

我正在尝试使用 RAG 简化 AI 项目。

  1. RAG(检索增强生成)部分由 Google Vertex AI Search 处理
  2. LLM 可以通过本地 LLM 或 OpenAI & cie API 进行处理

我在 (1) 上遇到了一些困难:我当然可以通过 GCloud 控制台 UI 手动将我的

.txt
文件上传到我的 Vertex 数据存储中,但我无法以编程方式成功完成。

  1. 我尝试运行这个示例代码...
  2. 但我遇到了错误:“提供的 GCS URI 具有无效的非结构化数据格式。请以 NDJSON(.ndjson) 或 JSON Lines(.jsonl) 格式提供有效的 GCS 路径。”(当然是我的数据)是非结构化的原始 txt!)。
  3. 然后我尝试制作
    data_schema="document"
    ,但没有成功..

您知道是否可以通过编程方式将一些 .txt 上传到 Vertex 数据存储中?
有没有最简单的方法来保持 GCS 存储桶与 Vertex 数据存储同步?
似乎没有 NodeJS lib 退出用于将数据导入 Vertex Datastore:奇怪......

谢谢

google-cloud-storage google-cloud-vertex-ai
1个回答
0
投票

您需要将

data_schema
设置为
'content'

本笔记本可能会有所帮助: https://github.com/GoogleCloudPlatform/generative-ai/blob/main/search/create_datastore_and_search.ipynb

© www.soinside.com 2019 - 2024. All rights reserved.