我正在使用 llama 索引,希望直接将文档作为文件读取,而不是像官方文档中所述指定文件夹路径。当前方法假设 llama 索引用户始终在目录中拥有下载的文件。这是文档中的代码片段:
from llama_index.core import SimpleDirectoryReader
documents = SimpleDirectoryReader("./data").load_data()
如何修改这个可以直接读取文档而不指定文件夹路径?
要直接读取文件,首先需要像文档一样构造它,以确保与 llama 索引的兼容性。
例如:
from llama_index.core import Document, VectorStoreIndex
pdf_content = read_json("pdf/attention-is-all-you-need.json")
VectorStoreIndex.from_documents([Document(text=pdf_content['content'])])
注意:
read_json
读取 JSON 文件并将其转换为文本。对于 PDF 文件,请在构建文档之前使用 PyPDF 等库来提取文本。