如何选择 LLM 嵌入的数据块大小?

问题描述 投票:0回答:2

我有结构化数据(CSV),其中有一列可变长度的语义丰富文本。我可以通过使用 LLM 将语义丰富的文本总结为最大大小来挖掘数据,以便 CSV 文件的每行数据具有最大长度。我正在使用 OpenAI GPT 3.5Turbo。 选择容纳行的最大可能大小的块大小是否重要?或者这无关紧要,我可以使用可变的行大小,为我的数据选择一个中值块大小,并让 LLM 处理接收一些被分成单独块的记录?

csv large-language-model chunking openaiembeddings
2个回答
0
投票

如果您使用矢量/混合搜索,则嵌入模型允许的最大长度(这可能会有很大差异,512 个标记通常是正确的)
  • LLM提示中最佳加载多少记录
  • 后者可能很重要,因为你的上下文窗口大小以及法学硕士在上下文中挑选信息的能力有多好。


0
投票

背景:

由于它是 CSV 数据,因此意味着行中的内容具有很强的语义关系,并且与下一行或上一行几乎没有语义关系,即行排序可以是随机的,因为行彼此独立。 因此,在为此类数据生成嵌入时,LLM 是使用行之间的语义生成响应,目标是 CSV 的每一行都成为一个向量,以便当查询 LLM 时,它会生成围绕各行之间的语义内容(这是本例中的目标),这意味着这些答案基于 CSV 之间的契合度。

了解更多背景知识

LLM申请的分块策略

是一个很好的来源。

© www.soinside.com 2019 - 2024. All rights reserved.