分割大数据集以使用langchain

Question

我目前正在使用 langchain 根据这些数据中的现有数据创建一个对话式聊天机器人，我有一些包含巨大数据集的 excel 和 csv 文件。我的问题是，当我想将此类数据加载到矢量数据库时，如何处理这种情况？逐行拆分它可以保持数据的含义，但我担心会破坏数据库或按原样加载它而不拆分。

Answer 1

如果我正确理解你的问题，你正在寻找的是 csv_loader 至少开始。但是从那里您将需要（正如您所说）将其加载到矢量数据库中。 Chroma 应该可以很好地做到这一点。下面是一个示例：

from langchain.llms import OpenAI
from langchain.vectorstores import Chroma
from langchain.embeddings.openai import OpenAIEmbeddings
from langchain.document_loaders.csv_loader import CSVLoader

llm = OpenAI(temperature=0, openai_api_key=openai_api_key)
embeddings = OpenAIEmbeddings(openai_api_key=openai_api_key)
loader = CSVLoader(file_path="./example_data/mlb_teams_2012.csv")
data = loader.load()
docsearch = Chroma.from_documents(data, embeddings)

使用此功能，langchain 将读取您的 CSV，然后 Croma 将嵌入文档并将其存储在本地的 .chroma 文件夹中。通过此设置，当您查询数据时，您可以要求 Chroma 仅加载具有相关数据的 CSV 条目，而不会淹没您输入的任何内容。

分割大数据集以使用langchain

问题描述投票：0回答：1

1个回答

最新问题

分割大数据集以使用langchain

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1