bert 预期的Cloud TPUv3上的火车时间

mbjcgjjk  于 5个月前  发布在  其他
关注(0)|答案(1)|浏览(93)

是的,我理解为TPUv2。对于TPUv3,我们可以尝试128或256个样本进行训练。

cig3rfwq

cig3rfwq1#

更新:看起来我可以在128个max_seq_length的Cloud TPUv3上运行一批大小为2048的数据。
另外,我现在还不太清楚原始模型是如何训练的——我看到4天使用4个TPUv2进行训练,但在一个地方它说
"1M步长,批量大小为256序列 * 512标记 = 128K标记/批次",
但在另一个地方它说
"我们使用序列长度为128的前90%的步骤对模型进行预训练[以及]剩余10%的512序列步骤"
你能给我一点关于原始BERT-base模型是如何训练的澄清吗?
谢谢!

相关问题