使用 Langchain 加载和矢量化多个 PDF 的问题

问题描述 投票:0回答:1

我正在尝试使用

VectorstoreIndexCreator().from_loaders(loaders)
包中的
langchain
,其中
loaders
UnstructuredPDFLoader
实例的列表,每个实例都旨在加载不同的 PDF 文件。但是,我遇到了与局部变量
UnboundLocalError
相关的
isalnum

这是错误回溯的相关部分:

File …/site-packages/unstructured/documents/elements.py:1007, in process_metadata….
UnboundLocalError: local variable 'isalnum' referenced before assignment

这是我的代码的简化版本:

from langchain.document_loaders import UnstructuredPDFLoader
from langchain.indexes import VectorstoreIndexCreator

loaders = [UnstructuredPDFLoader(filepath) for filepath in filepaths]
index = VectorstoreIndexCreator().from_loaders(loaders)

有趣的是,当我使用

WebBaseLoader
加载 Web 文档而不是 PDF 时,代码运行良好:

from langchain.document_loaders import WebBaseLoader
from langchain.indexes import VectorstoreIndexCreator

loader = WebBaseLoader("https://example.com")
index = VectorstoreIndexCreator().from_loaders([loader])

问题:

  1. 有没有人遇到过与
    UnstructuredPDFLoader
    langchain
    类似的问题,如果有,你是如何解决的?
python vectorization embedding langchain llm
1个回答
0
投票

昨天在非结构化 io github 存储库上打开了一个问题,提到了同样的问题,所以怀疑这不是你做错的事情,而是非结构化库中的临时错误(问题在这里

© www.soinside.com 2019 - 2024. All rights reserved.