centos slurmd:错误:在查看所有文件时找不到cgroup/v2的指定插件名称

f45qwnt8  于 2022-11-07  发布在  其他
关注(0)|答案(1)|浏览(920)

在计算节点上启动slurmd服务时遇到问题。

服务- Slurm节点守护进程
已加载:已加载(/usr/lib/systemd/system/slurmd.service;已启用;供应商预设:禁用)活动:失败(结果:退出代码),自美国东部时间2022年10月12日星期三04:10:25起; 7秒前流程:5839执行开始=/usr/sbin/slurmd -D -s $SLURMD_OPTIONS(代码=已退出,状态=1/失败)主PID:5839(代码=已退出,状态=1/故障)CPU:3毫秒10月12日04:10:25 compute1.ghpcv3.au.dk系统管理[1]:已启动Slurm节点守护程序。10月12日04:10:25 compute1.ghpcv3.au.dk systemd[1]:slurmd.service:主进程已退出,代码=已退出,状态=1/失败10月12日04:10:25 compute1.ghpcv3.au.dk systemd[1]:slurmd.service:失败,结果为“exit-code”。

泥浆-D -vv泥浆:调试:日志文件已重新打开slurmd:调试:CPU:1主板:1插槽:1内核每个插槽:1线程每个内核:1 slurmd:错误:无法在所有文件中找到cgroup/v2的指定插件名称slurmd:错误:找不到cgroup/v2 slurmd的cgroup插件:错误:无法为cgroup/v2 slurmd创建cgroup上下文:错误:无法初始化cgroup插件slurmd:错误:slurmd初始化失败

"我错过了什么"

332nm8kg

332nm8kg1#

您可能需要在slurm config目录https://stackoverflow.com/a/65226055/5749775中手动创建cgroup.conf
我通过创建一个相当简单的conf解决了这个问题:


# /etc/slurm-llnl/cgroup.conf

CgroupAutomount=yes

# CgroupReleaseAgentDir="/etc/slurm/cgroup"

ConstrainCores=yes
ConstrainDevices=yes

# TaskAffinity=yes

ConstrainRAMSpace=yes

# ConstrainSwapSpace=yes

MaxRAMPercent=98
AllowedSwapSpace=0
AllowedRAMSpace=100
MemorySwappiness=0

相关问题