大模型训练容错功能
大模型训练容错会通过一些能力辅助平台提升训练任务的容错能力,提升任务训练的稳定性和效率,提升有效训练时间。
环境检测和自动重试
GPU的故障率相对高,卡的日故障率万分之五;用户排查环境问题比排查代码更困难,考虑这些背景增加了环境诊断和自动重试能录,对任务进行GPU检测、文件存储读写检测、多机多卡间通信检测等。
CheckPoint多级缓存异步读写加速
通过内存异步读写,挂载ACS服务(本地Nvme介质加速),多机训练时把CheckPoint在本地和临近节点各存一份,节点遇到故障时,可以从临近节点就近恢复。
该功能提供环境诊断、自动重试、健康检测和CheckPoint加速4个功能:
- 环境诊断:提供任务运行前和任务失败后俩个诊断时机,做服务器硬件、存储和网络通信健康状况等环境诊断。其中环境诊断包含任务运行前Warmup和任务失败后Checker2类检测,总共包含
GPU BURN
、Disk Test
、Cublas Test
和NCCL TEST
4项检测; - 自动重试:任务运行失败后,会检测环境的可用性,当发现硬件故障时,平台会选择一个用户集群中的空闲节点替换故障节点,或者其他通信问题等,任务会尝试重启,直到配置的最大任务重试次数(默认为3);
- 健康检测:开启任务运行中监测,系统将从大量且多样的时序数据中检测训练任务的异常情况,帮助用户提前预警在任务异常或失败情况;其中监测日志会大概延迟5分钟左右展示;
- Checkpoint加速:开启Checkpoint加速,任务容错在重启时可从Checkpoint缓存快速读取断点前数据,从异常断点处快速启动恢复任务;当前CheckPoint服务仅支持ubuntu 20.04 22.04、centos 7、rocky 8及以上OS版本。最大缓存轮数:缓存最近三次CheckPoint