我想要一个将大量 PDF 嵌入 Faiss Vector Store 的建议 |骆驼_索引 | PDF阅读器

问题描述投票：0回答：1

实际上我正在尝试构建一个聊天机器人，它可以回答一组 pdf 中的问题。我使用 llama_index 进行检索。该机器人现在可以正常工作，没有任何问题。但答案的质量并不是那么好:(。我相信这是因为我使用了自定义逻辑来创建嵌入（每个块 15 行）。我嵌入的流程是

我面临的问题是 - 一些文档（例如常见问题解答和表格）未正确嵌入。 - 主要是在一个文档块中提问并在另一个文档块中回答。 - 使用page.extractText()表数据完全折叠。

这降低了我的ChatBot的回答效率。

我尝试了一些逻辑，可以帮助我将单独的表内容放入单独的块中 - 这提高了一点性能。

但是我不能对我拥有的每个 pdf 都这样做，因为每个 pdf 在创建时都遵循了一些不同的不同方式。

我期待专家的一些事情，

我希望这两个中的任何一个能帮助我。

提前致谢。

python

pdf

langchain

llama-index

faiss

1个回答

0
投票

有人有解决方案吗？？