Slurm兼容工具 SCC
SLURM兼容工具(SCC),为AI开发者提供了一个与SLURM语法兼容的CLI工具,帮助AI开发者在用户习惯最少量改动的情况下,无需yaml文件的编写或复杂参数的配置,可直接使用Slurm的命令行、或类Slurm的命令行来对SenseCore的AI算力池进行任务的发起、管理,节点资源的查看等行为,使用户的迁移成本最小化,从而让研究员平滑完成大规模集群资源管理系统的过渡,最大化地享受优化后工业级大规模算力管理系统的优质体验
SLURM兼容工具(SCC),为AI开发者提供了一个与SLURM语法兼容的CLI工具,帮助AI开发者在用户习惯最少量改动的情况下,无需yaml文件的编写或复杂参数的配置,可直接使用Slurm的命令行、或类Slurm的命令行来对SenseCore的AI算力池进行任务的发起、管理,节点资源的查看等行为,使用户的迁移成本最小化,从而让研究员平滑完成大规模集群资源管理系统的过渡,最大化地享受优化后工业级大规模算力管理系统的优质体验
保留SLURM命令特色,兼顾容器化分布式优势,提供极致系统兼容体验。
兼容Slurm命令行
享受容器技术特色优势
无需复杂配置
精简易用,快速上手
对用户提交的类Slurm命令行进行解析封装,提交至高性能AI算力池。
支持用户基于Srun的命令行形式发起不同框架的训练任务,并配置所需要的资源规格数量,以指定的方式返回结果;
支持用户基于scontrol,scancel等命令行内容,对已提交的任务查看详情,并对其进行取消等操作行为;
支持用户基于sinfo,squeue等命令行内容,对可用的集群工作空间资源,当前用户的任务排队情况进行综合查看。
大规模集群资源管理使用,发起多机多卡分布式训练。
用户可基于slurm的命令行语法,配置资源规格和节点数量,发起分布式训练任务,并基于返回结果进行解析。
CLI前端构建命令,对用户选项、参数进行校验。
CLI后端转换封装构建请求体并发送,格式化输出。
用户可查看可用的集群资源总量、使用量等维度,及当前任务的排队情况,来综合判断集群资源利用负载。
通过鉴权机制进行身份认证,实现资源权限管控