大模型训练容错功能
若您在提交训练任务时,选择了开启容错功能,那么您可以使用大模型训练容错功能。
该功能会提供环境诊断、任务重试、任务监控检测和CheckPoint加速4个功能。其中环境诊断包含Warmup和Check 2类检测,总共包含GPU BURN
、Disk Test
、Cublas Test
和NCCL TEST
4项检测。
我们在任务正式启动前会为您检测硬件可用性,当发现硬件不可用时,我们会选择一个您的集群中的空闲节点为当前任务进行替换。每次重新替换后会再次执行环境检测,直到所有硬件都是正常的,或达到了您配置的最大任务重试次数(默认为3)。
除此之外,当您的任务出现异常时,我们也会先进行GPU BURN
和NCCL TEST
来确认是否是硬件问题导致了任务失败,若为硬件问题导致失败,我们会重复上述流程并重启任务。(依然会消耗检测次数)