langchain 加载器与电源点不工作

问题描述 投票:0回答:1

下面的 def load_documents 函数能够将各种文档(例如 .docx、.txt 和 .pdf)加载到 langchain 中。我还希望能够加载 Power Point 文档并在这里找到一个脚本:https://python.langchain.com/docs/integrations/document_loaders我将其添加到下面的函数中。

但是,该函数无法读取 .pptx 文件,因为我无法 pip install UnstructedPowerPointLoader。有人可以建议一种方法来执行此操作或增强以下功能以便我可以加载 .pptx 文件吗?

Python函数如下:

def load_document(file):
    import os
    name, extension = os.path.splitext(file)

    if extension == '.pdf':
        from langchain.document_loaders import PyPDFLoader
        print(f'Loading {file}')
        loader = PyPDFLoader(file)
    elif extension == '.docx':
        from langchain.document_loaders import Docx2txtLoader
        print(f'Loading {file}')
        loader = Docx2txtLoader(file)
    elif extension == '.txt':
        from langchain.document_loaders import TextLoader
        print(f'Loading {file}')
        loader = TextLoader(file)
    elif extension == '.pptx':
        from langchain_community.document_loaders import UnstructuredPowerPointLoader
        print(f'Loading {file}')
        loader = UnstructuredPowerPointLoader(file)
    else:
        print('Document format is not supported!')
        return None

    data = loader.load()
    return data

我收到的错误是因为 !pip install unstructed 失败。我也尝试过 !pip install -q unstructed["all-docs"]==0.12.0 但再次不成功。感谢任何帮助!

python powerpoint loader langchain
1个回答
0
投票

尝试使用这个:非结构化[docx,pptx]

© www.soinside.com 2019 - 2024. All rights reserved.