我正在尝试构建一个 pdf 聊天机器人,您可以在其中上传 pdf 并询问与 pdf 相关的问题。为此,我正在考虑基于 RAG 的应用程序。所以我想为我的输入 pdf 创建矢量嵌入,但是当我这样做时,
from llama_index.embeddings.huggingface import HuggingFaceEmbedding
embed_model = HuggingFaceEmbedding(model_name="BAAI/bge-small-en-v1.5")
index_creator = VectorstoreIndexCreator(
vectorstore_cls = Cassandra,
embedding = embed_model,
text_splitter = RecursiveCharacterTextSplitter(
chunk_size = 400,
chunk_overlap = 30
),
vectorstore_kwargs={
'session': session,
'keyspace': keyspace,
'table_name': table_name
}
)
我收到验证错误。
---------------------------------------------------------------------------
ValidationError Traceback (most recent call last)
<ipython-input-17-b83dc7fd1587> in <cell line: 4>()
2 keyspace = "pdf_qa_name"
3
----> 4 index_creator = VectorstoreIndexCreator(
5 vectorstore_cls = Cassandra,
6 embedding = embed_model,
/usr/local/lib/python3.10/dist-packages/pydantic/v1/main.py in __init__(__pydantic_self__, **data)
339 values, fields_set, validation_error = validate_model(__pydantic_self__.__class__, data)
340 if validation_error:
--> 341 raise validation_error
342 try:
343 object_setattr(__pydantic_self__, '__dict__', values)
ValidationError: 1 validation error for VectorstoreIndexCreator
embedding
instance of Embeddings expected (type=type_error.arbitrary_type; expected_arbitrary_type=Embeddings)
有什么想法吗?
尝试了 2 个不同的模型(Jina 和 BAAI/bge)。错误不会继续。我正在使用 open ai gpt 3.5 api。
我刚刚在 langchain 上提出了一个问题:https://github.com/langchain-ai/langchain/issues/22063
关于 VectorstoreIndexCreator 的同样问题