bert 预期的Cloud TPUv3上的火车时间

mbjcgjjk 于 5个月前发布在其他

关注(0)|答案(1)|浏览(93)

是的，我理解为TPUv2。对于TPUv3,我们可以尝试128或256个样本进行训练。

bert

来源：https://github.com/google-research/bert/issues/721

1条答案

按热度按时间

cig3rfwq1#

更新：看起来我可以在128个max_seq_length的Cloud TPUv3上运行一批大小为2048的数据。
另外，我现在还不太清楚原始模型是如何训练的——我看到4天使用4个TPUv2进行训练，但在一个地方它说
"1M步长，批量大小为256序列 * 512标记 = 128K标记/批次",
但在另一个地方它说
"我们使用序列长度为128的前90%的步骤对模型进行预训练[以及]剩余10%的512序列步骤"
你能给我一点关于原始BERT-base模型是如何训练的澄清吗？
谢谢！

赞(0）回复(0）举报 5个月前

我来回答

bert 预期的Cloud TPUv3上的火车时间

1条答案

相关问题

热门标签

最新问答