产品优势
- 大规模分布式训练:为模型训练专门打造的 RDMA(IB/RoCE)网络连接各个训练节点,实现训练网络高速通信,提升大规模分布式训练效率;
- 多种框架支持:支持多种主流训练框架和分布式架构,无需改变代码适配,接入零门槛;
- 训练任务全链路可视化监控:支持多机多卡分布式训练任务监控,且监控粒度有任务级别、Worker级别、GPU级别等三个维度的监控日志和告警,且支持多机多卡分布式训练;
- 支持大模型训练容错与恢复机制:为了保障大规模分布式深度学习任务稳定运行,提供任务异常检测服务、训练任务容错重新调度和恢复服务、分布式训练任务高速checkpoint服务;
- 支持多种训练加速框架:针对分布式训练任务,支持Parameter Server、All Reduce-DDP等训练加速框架;