GPT-4和GPT-3.5是否共享相同的令牌编码器?

gcuhipw9  于 2023-10-24  发布在  其他
关注(0)|答案(1)|浏览(272)

我想知道是否可以对各种GPT模型使用相同的令牌计数器-特别是GPT-3、GPT-3.5和GPT-4。
OpenAI的GPT模型需要对文本进行标记(使用Byte Pair Encoding,BPE),请参阅Interactive GPT tokenizer。我没有找到直接的声明,如果他们使用相同或不同的标记器。即使这个官方OpenAI页面也说:
如果您需要一个用于标记文本的编程接口,请查看我们的Python tiktoken包。对于JavaScript,node.js的gpt-3-encoder适用于大多数GPT-3模型

omvjsjqw

omvjsjqw1#

虽然我在官方文档中找不到它,但GPT-3.5和GPT-4似乎共享cl100k_base编码。
例如,参见gpt-tokenizer

  • gpt-4-32kcl100k_base
  • gpt-4-0314cl100k_base
  • gpt-4-32k-0314cl100k_base
  • gpt-3.5-turbocl100k_base
  • gpt-3.5-turbo-0301cl100k_base

How to count tokens with tiktoken - OpenAI cookbook

相关问题