如何选择 LLM 嵌入的数据块大小？

问题描述投票：0回答：2

我有结构化数据（CSV），其中有一列可变长度的语义丰富文本。我可以通过使用 LLM 将语义丰富的文本总结为最大大小来挖掘数据，以便 CSV 文件的每行数据具有最大长度。我正在使用 OpenAI GPT 3.5Turbo。选择容纳行的最大可能大小的块大小是否重要？或者这无关紧要，我可以使用可变的行大小，为我的数据选择一个中值块大小，并让 LLM 处理接收一些被分成单独块的记录？

csv

large-language-model

chunking

openaiembeddings

2个回答

0
投票

如果您使用矢量/混合搜索，则嵌入模型允许的最大长度（这可能会有很大差异，512 个标记通常是正确的）

LLM提示中最佳加载多少记录

0
投票

背景：

由于它是 CSV 数据，因此意味着行中的内容具有很强的语义关系，并且与下一行或上一行几乎没有语义关系，即行排序可以是随机的，因为行彼此独立。因此，在为此类数据生成嵌入时，LLM 是使用行之间的语义生成响应，目标是 CSV 的每一行都成为一个向量，以便当查询 LLM 时，它会生成围绕各行之间的语义内容（这是本例中的目标），这意味着这些答案基于 CSV 之间的契合度。

了解更多背景知识

LLM申请的分块策略

是一个很好的来源。

如何选择 LLM 嵌入的数据块大小？

问题描述 投票：0回答：2

2个回答

最新问题

问题描述投票：0回答：2