gpt-2 培训问题

oymdgrw7  于 6个月前  发布在  其他
关注(0)|答案(2)|浏览(133)

嗨,
我看了你的模型,看起来真的很漂亮!
我有一个问题,因为我对Tensorflow很陌生。
我如何使用例如西班牙数据集来训练我的模型?
谢谢大家!

1cklez4t

1cklez4t1#

你必须从头开始训练它,
sess.run(tf.compat.v1.global_variables_initializer())
而不是加载检查点。
但是要注意,他们的模型是在一个巨大的数据集上训练了很长时间的。
所以你必须做同样的事情才能得到同样的质量。
哦,你可能需要为西班牙语生成自己的encoder.json,我现在还不知道怎么做,但这应该不会太难,基本上就是创建一个词汇表。
另一种解决方案是在翻译后的数据集上微调模型(117M或345M):我已经使用https://www.deepl.com/translator使用了这种方法,我不得不说它相当不错。

cgh8pdjw

cgh8pdjw2#

不幸的是,对于像波兰语这样的语言来说,不创建一个新的vocab会使训练变得不可能。它会创建很多不存在的单词,因此我认为如果一个单词使用太多的标记,输出的质量可能会大大降低。

相关问题