嗨,我看了你的模型,看起来真的很漂亮!我有一个问题,因为我对Tensorflow很陌生。我如何使用例如西班牙数据集来训练我的模型?谢谢大家!
1cklez4t1#
你必须从头开始训练它,sess.run(tf.compat.v1.global_variables_initializer())而不是加载检查点。但是要注意,他们的模型是在一个巨大的数据集上训练了很长时间的。所以你必须做同样的事情才能得到同样的质量。哦,你可能需要为西班牙语生成自己的encoder.json,我现在还不知道怎么做,但这应该不会太难,基本上就是创建一个词汇表。另一种解决方案是在翻译后的数据集上微调模型(117M或345M):我已经使用https://www.deepl.com/translator使用了这种方法,我不得不说它相当不错。
sess.run(tf.compat.v1.global_variables_initializer())
cgh8pdjw2#
不幸的是,对于像波兰语这样的语言来说,不创建一个新的vocab会使训练变得不可能。它会创建很多不存在的单词,因此我认为如果一个单词使用太多的标记,输出的质量可能会大大降低。
2条答案
按热度按时间1cklez4t1#
你必须从头开始训练它,
sess.run(tf.compat.v1.global_variables_initializer())
而不是加载检查点。
但是要注意,他们的模型是在一个巨大的数据集上训练了很长时间的。
所以你必须做同样的事情才能得到同样的质量。
哦,你可能需要为西班牙语生成自己的encoder.json,我现在还不知道怎么做,但这应该不会太难,基本上就是创建一个词汇表。
另一种解决方案是在翻译后的数据集上微调模型(117M或345M):我已经使用https://www.deepl.com/translator使用了这种方法,我不得不说它相当不错。
cgh8pdjw2#
不幸的是,对于像波兰语这样的语言来说,不创建一个新的vocab会使训练变得不可能。它会创建很多不存在的单词,因此我认为如果一个单词使用太多的标记,输出的质量可能会大大降低。