pytorch GPT 2-XL预训练模型的训练数据大小

qlvxas9a  于 2023-08-05  发布在  其他
关注(0)|答案(2)|浏览(151)

huggingface transformer中,可以使用预训练的GPT 2-XL语言模型。但我不知道,它是在哪个数据集上训练的?它是OpenAI用于paper的同一个训练模型吗(在40 GB的数据集webtext上训练)?

nimxete2

nimxete21#

GPT 2-XL型号是您链接的论文中详细介绍的四种架构中最大的一种(1542 M参数)。它是在与其他三个相同的数据上训练的,也就是你提到的WebText。

brc7rcf0

brc7rcf02#

GPT 2-XL型号是您链接的论文中详细介绍的四种架构中最大的一种(1542 M参数)。它是在与其他三个相同的数据上训练的,也就是你提到的WebText。
大小6 GB

相关问题