OpenAI GPT-3 API:它如何计算不同语言的令牌?

frebpwbc  于 2023-03-09  发布在  其他
关注(0)|答案(1)|浏览(331)

我们都知道GPT-3机型可以接受和生成英、法、中、日等各种语言。
在传统的自然语言处理中,不同的语言有不同的标记生成方法。

  • 对于英文等字母语言,Bert使用BPE方法生成如下标记:
Insomnia caused much frustration.
==>
In-, som-, nia, caus-, ed, much, frus-, tra-, tion, .,
  • 对于汉字或日语等汉字语言,只需使用汉字本身作为标记,如下所示。

x一个一个一个一个x一个一个二个x
但是对于GPT-3来说,它是由不同的语言组成的,可以在一句话中同时产生中文和英文,所以我真的很好奇这个模型是如何制作代币的。

t98cgbkg

t98cgbkg1#

使用Tokenizer来理解OpenAI API如何标记一段文本。
例如,Insomnia caused much frustration.将被标记为6个标记。

然而,我说你倒是快点啊!!!将被标记为27个标记,底部有一个小注解:

注意:您的输入包含一个或多个Map到多个标记的Unicode字符。输出可视化效果可能以非标准方式显示每个标记中的字节。

相关问题