大模型训练容错功能

大模型训练容错会通过一些能力辅助平台提升训练任务的容错能力，提升任务训练的稳定性和效率，提升有效训练时间。

环境检测和自动重试

GPU的故障率相对高，卡的日故障率万分之五；用户排查环境问题比排查代码更困难，考虑这些背景增加了环境诊断和自动重试能录，对任务进行GPU检测、文件存储读写检测、多机多卡间通信检测等。

CheckPoint多级缓存异步读写加速

通过内存异步读写，挂载ACS服务（本地Nvme介质加速），多机训练时把CheckPoint在本地和临近节点各存一份，节点遇到故障时，可以从临近节点就近恢复。

该功能提供环境诊断、自动重试、健康检测和CheckPoint加速4个功能：

环境诊断：提供任务运行前和任务失败后俩个诊断时机，做服务器硬件、存储和网络通信健康状况等环境诊断。其中环境诊断包含任务运行前Warmup和任务失败后Checker2类检测，总共包含GPU BURN、Disk Test、Cublas Test和NCCL TEST4项检测；
自动重试：任务运行失败后，会检测环境的可用性，当发现硬件故障时，平台会选择一个用户集群中的空闲节点替换故障节点，或者其他通信问题等，任务会尝试重启，直到配置的最大任务重试次数（默认为3）；
健康检测：开启任务运行中监测，系统将从大量且多样的时序数据中检测训练任务的异常情况，帮助用户提前预警在任务异常或失败情况；其中监测日志会大概延迟5分钟左右展示；
Checkpoint加速：开启Checkpoint加速，任务容错在重启时可从Checkpoint缓存快速读取断点前数据，从异常断点处快速启动恢复任务；当前CheckPoint服务仅支持ubuntu 20.04 22.04、centos 7、rocky 8及以上OS版本。最大缓存轮数：缓存最近三次CheckPoint