OpenAI GPT-3 API：它如何计算不同语言的令牌？

frebpwbc 于 2023-03-09 发布在其他

关注(0)|答案(1)|浏览(332)

我们都知道GPT-3机型可以接受和生成英、法、中、日等各种语言。
在传统的自然语言处理中，不同的语言有不同的标记生成方法。

Insomnia caused much frustration.
==>
In-, som-, nia, caus-, ed, much, frus-, tra-, tion, .,

x一个一个一个一个x一个一个二个x
但是对于GPT-3来说，它是由不同的语言组成的，可以在一句话中同时产生中文和英文，所以我真的很好奇这个模型是如何制作代币的。

1条答案

使用Tokenizer来理解OpenAI API如何标记一段文本。
例如，Insomnia caused much frustration.将被标记为6个标记。

然而，我说你倒是快点啊！！!将被标记为27个标记，底部有一个小注解：

注意：您的输入包含一个或多个Map到多个标记的Unicode字符。输出可视化效果可能以非标准方式显示每个标记中的字节。