Paddle 多卡训练模型层数要与卡数相等的问题 paddle.fluid.core_avx.EnforceNotMet

ajsxfq5m 于 2021-11-30 发布在 Java

关注(0)|答案(4)|浏览(397)

GPU多卡训练两层的语言模型用两张卡就可以正常训练，用四张卡会挂掉，并提示如下paddle.fluid.core_avx.EnforceNotMet: The number(2) of samples of current batch is less than the count(2) of devices(GPU), currently, it is not allowed. at [/paddle/paddle/fluid/framework/parallel_executor.cc:660]
如果把模型改成四层，四张卡就可以训练，不报错。
看样子是一张卡上一层模型
请问怎么改成卡数与批大小相关而不是与模型层数相关？

来源：https://github.com/PaddlePaddle/Paddle/issues/19678

4条答案

按热度按时间

batchsize目前是多少？

赞(0）回复(0）举报 2021-11-30

Bathsize是4 16 20 都试过，都不行，且是相同的错误，只有改层数才有变化能跑通发自我的vivo智能手机 tangwei12 notifications@github.com编写：…

batchsize目前是多少？ — You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub, or mute the thread.

赞(0）回复(0）举报 2021-11-30

目前使用的是数据并行的模式，就是卡数与批大小相关而不是与模型层数的。

你的样本数总体有多少？

赞(0）回复(0）举报 2021-11-30

大约4万多样本，模型是官方的paddleNLP下的model下的语言模型，基本没改

赞(0）回复(0）举报 2021-11-30

相关问题

热门标签

Java query python Node 开发语言 request Util 数据库 Table 后端算法 Logger Message Element Parser

最新问答

xxl-job 安全组扫描到执行器端口服务存在信息泄露漏洞
回答(1) 发布于 4个月前
xxl-job 不能和nacos兼容？
回答(3) 发布于 4个月前
xxl-job 任务执行完后无法结束，日志一直转圈
回答(3) 发布于 4个月前
xxl-job-admin页面上查看调度日志样式问题
回答(1) 发布于 4个月前
xxl-job 参数512字符限制能否去掉
回答(1) 发布于 4个月前