在计算节点上启动slurmd服务时遇到问题。
服务- Slurm节点守护进程
已加载:已加载(/usr/lib/systemd/system/slurmd.service;已启用;供应商预设:禁用)活动:失败(结果:退出代码),自美国东部时间2022年10月12日星期三04:10:25起; 7秒前流程:5839执行开始=/usr/sbin/slurmd -D -s $SLURMD_OPTIONS(代码=已退出,状态=1/失败)主PID:5839(代码=已退出,状态=1/故障)CPU:3毫秒10月12日04:10:25 compute1.ghpcv3.au.dk系统管理[1]:已启动Slurm节点守护程序。10月12日04:10:25 compute1.ghpcv3.au.dk systemd[1]:slurmd.service:主进程已退出,代码=已退出,状态=1/失败10月12日04:10:25 compute1.ghpcv3.au.dk systemd[1]:slurmd.service:失败,结果为“exit-code”。
泥浆-D -vv泥浆:调试:日志文件已重新打开slurmd:调试:CPU:1主板:1插槽:1内核每个插槽:1线程每个内核:1 slurmd:错误:无法在所有文件中找到cgroup/v2的指定插件名称slurmd:错误:找不到cgroup/v2 slurmd的cgroup插件:错误:无法为cgroup/v2 slurmd创建cgroup上下文:错误:无法初始化cgroup插件slurmd:错误:slurmd初始化失败
"我错过了什么"
1条答案
按热度按时间332nm8kg1#
您可能需要在slurm config目录https://stackoverflow.com/a/65226055/5749775中手动创建
cgroup.conf
我通过创建一个相当简单的conf解决了这个问题: