是否有 cl100k_base tokenizer 的 JavaScript 实现?

问题描述 投票:0回答:1

OpenAI 的新嵌入 API 使用

cl100k_base
分词器。我从 Node.js 客户端调用它,但我没有看到任何简单的方法来分割我的字符串,所以它们不会超过 8192 个令牌的 OpenAI 限制。

如果我可以先对字符串进行编码,将其切片到极限,然后对其进行解码并将其发送到 API,这将是微不足道的。

node.js machine-learning nlp tokenize openai-api
1个回答
4
投票

找了好久,似乎没有

cl100k_base
分词器的JavaScript实现。

作为一个简单的临时解决方案,有一个通用的经验法则,一个标记对应于大约四个普通英文字符。这大致相当于一个标记等于一个词的 3/4。因此,在您的情况下,限制为 8,192 个标记 ~= 6,144 个单词。因此,您可以对字符串进行切片,使其不超过 ~6,144 个单词(例如,设置 6,100 个单词的限制。如果失败,请进一步减少限制,直到找到合适的单词)。

© www.soinside.com 2019 - 2024. All rights reserved.