异常检测日志
- 异常检测功能主要帮助研发员及时发现运行任务的异常事件,研究员可根据异常事件及时更新任务;如任务正常运行,但通过分析监控指标,监测任务初出现卡死异常,系统打印异常日志并消息通知到用户,用户可调试任务或停止任务;
- 创建任务时,启动了容错并开启异常检测后,系统会基于日志、监控指标分析当前训练任务是否可能已发生异常,检测间隔为5分钟。
- 异常检测功能当前为试用功能,不收取费用,不会增加用户侧资源开销。
- 常见的异常检测结果如:所加载的GPU并未在运行中、NCCL通信异常、数据读写异常、任务卡死异常等。