下面的 def load_documents 函数能够将各种文档(例如 .docx、.txt 和 .pdf)加载到 langchain 中。我还希望能够加载 Power Point 文档并在这里找到一个脚本:https://python.langchain.com/docs/integrations/document_loaders我将其添加到下面的函数中。
但是,该函数无法读取 .pptx 文件,因为我无法 pip install UnstructedPowerPointLoader。有人可以建议一种方法来执行此操作或增强以下功能以便我可以加载 .pptx 文件吗?
Python函数如下:
def load_document(file):
import os
name, extension = os.path.splitext(file)
if extension == '.pdf':
from langchain.document_loaders import PyPDFLoader
print(f'Loading {file}')
loader = PyPDFLoader(file)
elif extension == '.docx':
from langchain.document_loaders import Docx2txtLoader
print(f'Loading {file}')
loader = Docx2txtLoader(file)
elif extension == '.txt':
from langchain.document_loaders import TextLoader
print(f'Loading {file}')
loader = TextLoader(file)
elif extension == '.pptx':
from langchain_community.document_loaders import UnstructuredPowerPointLoader
print(f'Loading {file}')
loader = UnstructuredPowerPointLoader(file)
else:
print('Document format is not supported!')
return None
data = loader.load()
return data
我收到的错误是因为 !pip install unstructed 失败。我也尝试过 !pip install -q unstructed["all-docs"]==0.12.0 但再次不成功。感谢任何帮助!
尝试使用这个:非结构化[docx,pptx]