版本号 | 更新内容 | 更新时间 |
---|
高性能AI算力池 v2.16 | 训练框架和分布式架构合并,推出常用的组合选择方式:PyTorchDDP、TensorFlowPS、SenseParrots、MPI; 任务支持监控指标:IB训练网吞吐、NVLINK吞吐、SM设备利用率、GPU温度、GPU功耗; 【国产化】支持用沐曦C500资源创建单机训练任务; 支持批量停止和批量启动操作;name和display name的校验规则调整; | 2024-09-30 |
高性能AI算力池 v2.15 | 模型精调(快速开始版块)上线;训练框架新增国产化训练框架SenseParrots;新增华为910B包含Modellink1.0库镜像; | 2024-08-30 |
高性能AI算力池 v2.14 | 公共集群支持创建CPU任务;支持自定义监控时间;支持工作空间搜索匹配能力; | 2024-07-25 |
高性能AI算力池 v2.13 | Web Terminal支持审计行为事件全网发布 | 2024-07-04 |
高性能AI算力池 v2.12 | 高性能AI算力池支持TensorBoard;且会更新一个最新的镜像支持较新的Pytorch&deepspeed等版本; | 2024-05-30 |
高性能AI算力池 v2.11 | 高性能AI算力池支持对接云审计;910B支持Checkpoint加速; | 2024-05-10 |
高性能AI算力池 v2.10 | 高性能AI算力池支持支持公共集群下发单机训练任务;支持挂载ACS目录;支持AFS一级目录挂载; | 2024-04-10 |
高性能AI算力池 v2.9 | 高性能AI算力池支持在内存/X86-CPU架构/NVIDA系列显卡任意异构算力资源池化下,跑通一个PyTorch单机/多机单卡/多卡分布式训练任务; | 2024-03-05 |
高性能AI算力池 v2.8 | 高性能AI算力池创建任务支持传入用户自定义环境变量;创建任务时增加存储路径不可挂载路径校验;异常检测日志优化减少刷屏;支持任务卡死异常检测和消息通知 | 2024-01-30 |
高性能AI算力池 v2.7 | 高性能AI算力池适配910B,能跑通Pytorch框架单机和多机任务训练任务;支持统一命令行、安全 Posix;支持任务事件日志记录,包含pod异常原因、触发时间等信息;大模型异常检测& 容错系统功能优化迭代(增加节点信息、补充日志详情); | 2023-12-30 |
高性能AI算力池 v2.5 | 高性能AI算力池(经典)将下线,在旧版算力池上不支持创建和重启训练任务;提供任务级别的checkpoint容错和恢复机制;支持国际化-英文版本界面;优化Worker监控页面,即增加pod ip信息,并支持host ip快速搜索定位异常Worker; | 2023-11-30 |
高性能AI算力池 v2.4 | 提供容错日志、异常检测日志;允许工作空间所有者调整任务优先级 | 2023-10-30 |
高性能AI算力池 v2.3 | 增多AZ场景适配 | 2023-09-30 |
高性能AI算力池 v2.2 | 上线训练任务容错功能 | 2023-08-30 |
高性能AI算力池 v2.0 | 发布算力池2.0产品,可以配合集群产品完成训练任务的管理。(原算力池产品的入口保留,更名为高性能AI算力池(经典),不影响原有功能) | 2023-07-26 |
高性能AI算力池 v1.1 | 发布算力池2.0产品,可以配合集群产品完成训练任务的管理。(原算力池产品的入口保留,更名为高性能AI算力池(经典),不影响原有功能) | 2023-07-26 |
高性能AI算力池 GA | 优化监控和日志的展现形态,新增任务Worker事件,支持登录到任务Worker中 | 2023-03-31 |
高性能AI算力池 RC | 兼容RoCE训练网络 | 2023-02-28 |
高性能AI算力池 Beta | 支持高性能AI算力池的退订和续订 | 2022-12-31 |
高性能AI算力池 Alpha2 | 新增任务监控、日志等功能 | 2022-10-31 |
高性能AI算力池 Alpha | 支持用户创建高性能AI算力池并提交训练任务 | 2022-09-30 |