直接从 Llama Index 读取文档作为文件，而不是指定文件夹路径

Question

我正在使用 llama 索引，希望直接将文档作为文件读取，而不是像官方文档中所述指定文件夹路径。当前方法假设 llama 索引用户始终在目录中拥有下载的文件。这是文档中的代码片段：

from llama_index.core import SimpleDirectoryReader

documents = SimpleDirectoryReader("./data").load_data()

如何修改这个可以直接读取文档而不指定文件夹路径？

Answer 1

要直接读取文件，首先需要像文档一样构造它，以确保与 llama 索引的兼容性。

例如：

from llama_index.core import Document, VectorStoreIndex

pdf_content = read_json("pdf/attention-is-all-you-need.json")
VectorStoreIndex.from_documents([Document(text=pdf_content['content'])])

注意：

read_json

读取 JSON 文件并将其转换为文本。对于 PDF 文件，请在构建文档之前使用 PyPDF 等库来提取文本。

直接从 Llama Index 读取文档作为文件，而不是指定文件夹路径

问题描述投票：0回答：1

1个回答

最新问题

直接从 Llama Index 读取文档作为文件，而不是指定文件夹路径

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1