Paddle 多卡训练模型层数要与卡数相等的问题 paddle.fluid.core_avx.EnforceNotMet

ajsxfq5m  于 2021-11-30  发布在  Java
关注(0)|答案(4)|浏览(397)

GPU多卡训练两层的语言模型用两张卡就可以正常训练,用四张卡会挂掉,并提示如下paddle.fluid.core_avx.EnforceNotMet: The number(2) of samples of current batch is less than the count(2) of devices(GPU), currently, it is not allowed. at [/paddle/paddle/fluid/framework/parallel_executor.cc:660]
如果把模型改成四层,四张卡就可以训练,不报错。
看样子是一张卡上一层模型
请问怎么改成卡数与批大小相关而不是与模型层数相关?

70gysomp

70gysomp1#

batchsize目前是多少?

ne5o7dgx

ne5o7dgx2#

Bathsize是4 16 20 都试过,都不行,且是相同的错误,只有改层数才有变化能跑通 发自我的vivo智能手机 tangwei12 notifications@github.com编写:…

batchsize目前是多少? — You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub, or mute the thread.

cgfeq70w

cgfeq70w3#

目前使用的是数据并行的模式, 就是卡数与批大小相关而不是与模型层数的。

你的样本数总体有多少?

t0ybt7op

t0ybt7op4#

大约4万多样本,模型是官方的paddleNLP下的model下的语言模型,基本没改

相关问题