直接从 Llama Index 读取文档作为文件,而不是指定文件夹路径

问题描述 投票:0回答:1

我正在使用 llama 索引,希望直接将文档作为文件读取,而不是像官方文档中所述指定文件夹路径。当前方法假设 llama 索引用户始终在目录中拥有下载的文件。这是文档中的代码片段:

from llama_index.core import SimpleDirectoryReader

documents = SimpleDirectoryReader("./data").load_data()

如何修改这个可以直接读取文档而不指定文件夹路径?

nlp openai-api large-language-model llama llama-index
1个回答
0
投票

要直接读取文件,首先需要像文档一样构造它,以确保与 llama 索引的兼容性。

例如:

from llama_index.core import Document, VectorStoreIndex

pdf_content = read_json("pdf/attention-is-all-you-need.json")
VectorStoreIndex.from_documents([Document(text=pdf_content['content'])])

注意:

read_json
读取 JSON 文件并将其转换为文本。对于 PDF 文件,请在构建文档之前使用 PyPDF 等库来提取文本。

© www.soinside.com 2019 - 2024. All rights reserved.