我非常喜欢这个网站chatpdf.com。您可以上传 PDF 文件,然后将文件的文本内容与文件“本身”进行讨论。它使用 ChatGPT。
我想编写类似的程序。但我想知道如何在 ChatGPT 提示中使用长 PDF 文件的内容,因为 ChatGPT 每次对话只接受 4096 个令牌。
我怎样才能减少所需的代币数量?
需要考虑的重要一点是,不知道哪些文件将与此一起使用。蚂蚁的目标不是总结文件,而是就内容进行详细对话。
我用 56 页 11110 字的 PDF 文件对其进行了测试。我试图从字符串中删除不太重要的词以输入提示。但根据 OpenAI 的 tiktoken 库,它只会导致令牌从 27082 个减少到 25288 个。试图用 [UNK] 标签掩盖这些词会导致增加到超过 30000 个令牌。