我们都知道GPT-3机型可以接受和生成英、法、中、日等各种语言。
在传统的自然语言处理中,不同的语言有不同的标记生成方法。
- 对于英文等字母语言,
Bert
使用BPE方法生成如下标记:
Insomnia caused much frustration.
==>
In-, som-, nia, caus-, ed, much, frus-, tra-, tion, .,
- 对于汉字或日语等汉字语言,只需使用汉字本身作为标记,如下所示。
x一个一个一个一个x一个一个二个x
但是对于GPT-3来说,它是由不同的语言组成的,可以在一句话中同时产生中文和英文,所以我真的很好奇这个模型是如何制作代币的。
1条答案
按热度按时间t98cgbkg1#
使用Tokenizer来理解OpenAI API如何标记一段文本。
例如,
Insomnia caused much frustration.
将被标记为6个标记。然而,
我说你倒是快点啊!!!
将被标记为27个标记,底部有一个小注解:注意:您的输入包含一个或多个Map到多个标记的Unicode字符。输出可视化效果可能以非标准方式显示每个标记中的字节。