带有嵌入的 OpenAI 提示中的上下文有限

问题描述投票：0回答：1

我正在研究 OpenAI 和 10k SEC PDF 文件。我的堆栈是 OpenAI + Langchain + Pinecone。

我试图通过使用嵌入并在提示中提供来自 Pinecone 的上下文来问一个简单的问题，即“2022 年 AAPL 的收入是多少”。

如果索引中只有 1 个 PDF 文件，则一切正常且答案正确。一旦我输入了几年的多个文档，比如 5 个文档（2018、2019、2020、2021、2022），我基本上永远不会得到正确的答案，因为 pinecone 查询返回错误的上下文（通常是 2018 年、2019 年或 2021 年）。

你会怎么做？如果我的想法是向其提供 5000 个文件，那么嵌入技术是正确的方法还是微调模型是更好的选择？

nlp

openai-api

word-embedding

chatgpt-api

pinecone

1个回答

0
投票

与在提示中添加一些上下文相比，微调基础模型要困难得多，所以我不会走那条路。

我假设您输入 Pinecone 的文本块不包含实际年份，因为在财务报告中多次重复它有点愚蠢。这就是为什么无法从 Pinecone 数据库中选取正确的块的原因。

如果您的典型用例是质疑财务报告，您可以将年份作为元数据添加到 Pinecone。如果现在询问有关 2022 年的问题，请仅使用元数据字段年份设置为 2022 年的文本块。