实际上我正在尝试构建一个聊天机器人,它可以回答一组 pdf 中的问题。 我使用 llama_index 进行检索。 该机器人现在可以正常工作,没有任何问题。 但答案的质量并不是那么好:(。我相信这是因为我使用了自定义逻辑来创建嵌入(每个块 15 行)。 我嵌入的流程是
我面临的问题是 - 一些文档(例如常见问题解答和表格)未正确嵌入。 - 主要是在一个文档块中提问并在另一个文档块中回答。 - 使用page.extractText()表数据完全折叠。
这降低了我的ChatBot的回答效率。
我尝试了一些逻辑,可以帮助我将单独的表内容放入单独的块中 - 这提高了一点性能。
但是我不能对我拥有的每个 pdf 都这样做,因为每个 pdf 在创建时都遵循了一些不同的不同方式。
我期待专家的一些事情,
我希望这两个中的任何一个能帮助我。
提前致谢。
有人有解决方案吗??