在huggingface transformer中,可以使用预训练的GPT 2-XL语言模型。但我不知道,它是在哪个数据集上训练的?它是OpenAI用于paper的同一个训练模型吗(在40 GB的数据集webtext上训练)?
webtext
nimxete21#
GPT 2-XL型号是您链接的论文中详细介绍的四种架构中最大的一种(1542 M参数)。它是在与其他三个相同的数据上训练的,也就是你提到的WebText。
brc7rcf02#
GPT 2-XL型号是您链接的论文中详细介绍的四种架构中最大的一种(1542 M参数)。它是在与其他三个相同的数据上训练的,也就是你提到的WebText。大小6 GB
2条答案
按热度按时间nimxete21#
GPT 2-XL型号是您链接的论文中详细介绍的四种架构中最大的一种(1542 M参数)。它是在与其他三个相同的数据上训练的,也就是你提到的WebText。
brc7rcf02#
GPT 2-XL型号是您链接的论文中详细介绍的四种架构中最大的一种(1542 M参数)。它是在与其他三个相同的数据上训练的,也就是你提到的WebText。
大小6 GB