我正在尝试使用 Azure OpenAI API 在 python 中创建多个 PDF 文档的 PDF 页面嵌入。
我基本上只是循环调用每个 pdf 文件的每个页面块:
embedding = get_embedding(page_text_chunk, engine = "text_embedding")
它适用于许多 PDF,但有一个 PDF 会引发以下错误:
openai.error.InvalidRequestError: '$.input' is invalid.
奇怪的是,如果我单独执行崩溃的 PDF 文件,它不会抛出错误,而且我无法理解这一点,也不明白错误的含义。
提到的错误
openai.error.InvalidRequestError: '$.input' is invalid.
是一个已知问题,在使用大型数据集创建嵌入时会遇到。此问题记录在here。
要处理和排除此问题,您可以确保以下指示成立:
input
参数在列表中不能超过 2048 个元素(文本块)。input
列表中所有元素的令牌总数不得超过 1,000,000 个令牌