带有嵌入的 OpenAI 提示中的上下文有限

问题描述 投票:0回答:1

我正在研究 OpenAI 和 10k SEC PDF 文件。我的堆栈是 OpenAI + Langchain + Pinecone。

我试图通过使用嵌入并在提示中提供来自 Pinecone 的上下文来问一个简单的问题,即“2022 年 AAPL 的收入是多少”。

如果索引中只有 1 个 PDF 文件,则一切正常且答案正确。一旦我输入了几年的多个文档,比如 5 个文档(2018、2019、2020、2021、2022),我基本上永远不会得到正确的答案,因为 pinecone 查询返回错误的上下文(通常是 2018 年、2019 年或 2021 年)。

你会怎么做?如果我的想法是向其提供 5000 个文件,那么嵌入技术是正确的方法还是微调模型是更好的选择?

nlp openai-api word-embedding chatgpt-api pinecone
1个回答
0
投票

与在提示中添加一些上下文相比,微调基础模型要困难得多,所以我不会走那条路。

我假设您输入 Pinecone 的文本块不包含实际年份,因为在财务报告中多次重复它有点愚蠢。这就是为什么无法从 Pinecone 数据库中选取正确的块的原因。

如果您的典型用例是质疑财务报告,您可以将年份作为元数据添加到 Pinecone。如果现在询问有关 2022 年的问题,请仅使用元数据字段年份设置为 2022 年的文本块。

© www.soinside.com 2019 - 2024. All rights reserved.