我有结构化数据(CSV),其中有一列可变长度的语义丰富文本。我可以通过使用 LLM 将语义丰富的文本总结为最大大小来挖掘数据,以便 CSV 文件的每行数据具有最大长度。我正在使用 OpenAI GPT 3.5Turbo。 选择容纳行的最大可能大小的块大小是否重要?或者这无关紧要,我可以使用可变的行大小,为我的数据选择一个中值块大小,并让 LLM 处理接收一些被分成单独块的记录?
由于它是 CSV 数据,因此意味着行中的内容具有很强的语义关系,并且与下一行或上一行几乎没有语义关系,即行排序可以是随机的,因为行彼此独立。 因此,在为此类数据生成嵌入时,LLM 是使用行之间的语义生成响应,目标是 CSV 的每一行都成为一个向量,以便当查询 LLM 时,它会生成围绕各行之间的语义内容(这是本例中的目标),这意味着这些答案基于 CSV 之间的契合度。
了解更多背景知识
是一个很好的来源。