我想知道是否可以对各种GPT模型使用相同的令牌计数器-特别是GPT-3、GPT-3.5和GPT-4。
OpenAI的GPT模型需要对文本进行标记(使用Byte Pair Encoding,BPE),请参阅Interactive GPT tokenizer。我没有找到直接的声明,如果他们使用相同或不同的标记器。即使这个官方OpenAI页面也说:
如果您需要一个用于标记文本的编程接口,请查看我们的Python tiktoken包。对于JavaScript,node.js的gpt-3-encoder包适用于大多数GPT-3模型。
1条答案
按热度按时间omvjsjqw1#
虽然我在官方文档中找不到它,但GPT-3.5和GPT-4似乎共享
cl100k_base
编码。例如,参见gpt-tokenizer。
gpt-4-32k
(cl100k_base
)gpt-4-0314
(cl100k_base
)gpt-4-32k-0314
(cl100k_base
)gpt-3.5-turbo
(cl100k_base
)gpt-3.5-turbo-0301
(cl100k_base
)和How to count tokens with tiktoken - OpenAI cookbook。