是的,我理解为TPUv2。对于TPUv3,我们可以尝试128或256个样本进行训练。
cig3rfwq1#
更新:看起来我可以在128个max_seq_length的Cloud TPUv3上运行一批大小为2048的数据。另外,我现在还不太清楚原始模型是如何训练的——我看到4天使用4个TPUv2进行训练,但在一个地方它说"1M步长,批量大小为256序列 * 512标记 = 128K标记/批次",但在另一个地方它说"我们使用序列长度为128的前90%的步骤对模型进行预训练[以及]剩余10%的512序列步骤"你能给我一点关于原始BERT-base模型是如何训练的澄清吗?谢谢!
max_seq_length
BERT-base
1条答案
按热度按时间cig3rfwq1#
更新:看起来我可以在128个
max_seq_length
的Cloud TPUv3上运行一批大小为2048的数据。另外,我现在还不太清楚原始模型是如何训练的——我看到4天使用4个TPUv2进行训练,但在一个地方它说
"1M步长,批量大小为256序列 * 512标记 = 128K标记/批次",
但在另一个地方它说
"我们使用序列长度为128的前90%的步骤对模型进行预训练[以及]剩余10%的512序列步骤"
你能给我一点关于原始
BERT-base
模型是如何训练的澄清吗?谢谢!