GPT-4 和 GPT-3.5 共享相同的令牌编码器吗?

问题描述 投票:0回答:1

我想知道是否可以对各种 GPT 模型使用相同的令牌计数器 - 特别是 GPT-3、GPT-3.5 和 GPT-4。

OpenAI 的 GPT 模型需要对文本进行标记(使用

字节对编码,BPE),请参阅交互式 GPT 标记器。我还没有找到他们使用相同或不同标记器的直接声明。甚至这个 OpenAI 官方页面也这么说:

如果您需要用于标记文本的编程接口,请查看我们的 Python

tiktoken 包。对于 JavaScript,node.js 的 gpt-3-encoder适用于大多数 GPT-3 模型

token openai-api gpt-3 gpt-4
1个回答
0
投票
虽然我在官方文档中找不到它,但GPT-3.5和GPT-4似乎共享

cl100k_base

编码。

参见例如

gpt 标记器.

  • gpt-4-32k
    cl100k_base
  • gpt-4-0314
    cl100k_base
  • gpt-4-32k-0314
    cl100k_base
  • gpt-3.5-turbo
    cl100k_base
  • gpt-3.5-turbo-0301
    cl100k_base
© www.soinside.com 2019 - 2024. All rights reserved.