我想要一个将大量 PDF 嵌入 Faiss Vector Store 的建议 |骆驼_索引 | PDF阅读器

问题描述 投票:0回答:1

实际上我正在尝试构建一个聊天机器人,它可以回答一组 pdf 中的问题。 我使用 llama_index 进行检索。 该机器人现在可以正常工作,没有任何问题。 但答案的质量并不是那么好:(。我相信这是因为我使用了自定义逻辑来创建嵌入(每个块 15 行)。 我嵌入的流程是

  1. 获取 pdf - 创建 pdf 阅读器对象
  2. 从每个页面中提取文本并将其存储在字符串中
  3. 根据“将该字符串拆分为字符串数组” ”
  4. 现在我创建了一个 llama_Index 文档块,每块包含 15 行
  5. 将这些文档解析为节点并创建向量存储索引

我面临的问题是 - 一些文档(例如常见问题解答和表格)未正确嵌入。 - 主要是在一个文档块中提问并在另一个文档块中回答。 - 使用page.extractText()表数据完全折叠。

这降低了我的ChatBot的回答效率。

我尝试了一些逻辑,可以帮助我将单独的表内容放入单独的块中 - 这提高了一点性能。

但是我不能对我拥有的每个 pdf 都这样做,因为每个 pdf 在创建时都遵循了一些不同的不同方式。

我期待专家的一些事情,

  1. 有没有最好的方法将此类 pdf 嵌入我的 Faiss Vectore 商店?如果是这样,你能给我推荐一个解决方案吗?
  2. 有没有办法让python理解这是一个表格内容,这是pdf中的子标题等等。

我希望这两个中的任何一个能帮助我。

提前致谢。

python pdf langchain llama-index faiss
1个回答
0
投票

有人有解决方案吗??

© www.soinside.com 2019 - 2024. All rights reserved.