具体报错如下。
集群上,也报该错,但是通过修改配置gpu卡数,已解决。本地训练,一直报改错。
js5cn81o1#
请问paddle版本,模型,和启动命令分别是?
6vl6ewon2#
paddle版本:paddle-fluid-v1.6.3
resnet152和bilstm
MP_CONFIG="--selected_gpus=0,1,2"${python_bin} -m paddle.distributed.launch ${MP_CONFIG} train.py$BASIC_CONFIG$TRAIN_STAGE1_CONFIG
ilmyapht3#
最终解决:使用 export CUDA_VISIBLE_DEVICES 替换 selected_gpus=0,1,2
3条答案
按热度按时间js5cn81o1#
请问paddle版本,模型,和启动命令分别是?
6vl6ewon2#
paddle版本:paddle-fluid-v1.6.3
resnet152和bilstm
MP_CONFIG="--selected_gpus=0,1,2"
${python_bin} -m paddle.distributed.launch ${MP_CONFIG} train.py
$BASIC_CONFIG
$TRAIN_STAGE1_CONFIG
ilmyapht3#
最终解决:使用 export CUDA_VISIBLE_DEVICES 替换 selected_gpus=0,1,2