我想知道是否可以对各种 GPT 模型使用相同的令牌计数器 - 特别是 GPT-3、GPT-3.5 和 GPT-4。
OpenAI 的 GPT 模型需要对文本进行标记(使用字节对编码,BPE),请参阅交互式 GPT 标记器。我还没有找到他们使用相同或不同标记器的直接声明。甚至这个 OpenAI 官方页面也这么说:
如果您需要用于标记文本的编程接口,请查看我们的 Pythontiktoken 包。对于 JavaScript,node.js 的 gpt-3-encoder 包适用于大多数 GPT-3 模型。
cl100k_base
编码。参见例如
gpt 标记器.
gpt-4-32k
(cl100k_base
)gpt-4-0314
(cl100k_base
)gpt-4-32k-0314
(cl100k_base
)gpt-3.5-turbo
(cl100k_base
)gpt-3.5-turbo-0301
(cl100k_base
)