产品动态 | 大装置帮助中心
跳到主要内容

产品动态

版本号更新内容更新时间
高性能AI算力池 v2.18新增监控指标-PCIe Bandwidth、GPU内存带宽利用率、GPU编码器利用率、GPU解码器利用率、TensorCore利用率;ACP任务display-name调整,由原本的1-63个字符,调整为1-256个字符;新增NV官方NGC Base镜像;2024-11-30
高性能AI算力池 v2.17任务容错能力做了功能拆分,环境诊断拆分为任务运行前和任务失败后;任务列表页加强了用户体验优化;批量操作增加二次校验弹窗信息确认;2024-10-30
高性能AI算力池 v2.16训练框架和分布式架构合并,推出常用的组合选择方式:PyTorchDDP、TensorFlowPS、SenseParrots、MPI; 任务支持监控指标:IB训练网吞吐、NVLINK吞吐、SM设备利用率、GPU温度、GPU功耗; 【国产化】支持用沐曦C500资源创建单机训练任务; 支持批量停止和批量启动操作;name和display name的校验规则调整;2024-09-30
高性能AI算力池 v2.15模型精调(快速开始版块)上线;训练框架新增国产化训练框架SenseParrots;新增华为910B包含Modellink1.0库镜像;2024-08-30
高性能AI算力池 v2.14公共集群支持创建CPU任务;支持自定义监控时间;支持工作空间搜索匹配能力;2024-07-25
高性能AI算力池 v2.13Web Terminal支持审计行为事件全网发布2024-07-04
高性能AI算力池 v2.12高性能AI算力池支持TensorBoard;且会更新一个最新的镜像支持较新的Pytorch&deepspeed等版本;2024-05-30
高性能AI算力池 v2.11高性能AI算力池支持对接云审计;910B支持Checkpoint加速;2024-05-10
高性能AI算力池 v2.10高性能AI算力池支持支持公共集群下发单机训练任务;支持挂载ACS目录;支持AFS一级目录挂载;2024-04-10
高性能AI算力池 v2.9高性能AI算力池支持在内存/X86-CPU架构/NVIDA系列显卡任意异构算力资源池化下,跑通一个PyTorch单机/多机单卡/多卡分布式训练任务;2024-03-05
高性能AI算力池 v2.8高性能AI算力池创建任务支持传入用户自定义环境变量;创建任务时增加存储路径不可挂载路径校验;异常检测日志优化减少刷屏;支持任务卡死异常检测和消息通知2024-01-30
高性能AI算力池 v2.7高性能AI算力池适配910B,能跑通Pytorch框架单机和多机任务训练任务;支持统一命令行、安全 Posix;支持任务事件日志记录,包含pod异常原因、触发时间等信息;大模型异常检测& 容错系统功能优化迭代(增加节点信息、补充日志详情);2023-12-30
高性能AI算力池 v2.5高性能AI算力池(经典)将下线,在旧版算力池上不支持创建和重启训练任务;提供任务级别的checkpoint容错和恢复机制;支持国际化-英文版本界面;优化Worker监控页面,即增加pod ip信息,并支持host ip快速搜索定位异常Worker;2023-11-30
高性能AI算力池 v2.4 提供容错日志、异常检测日志;允许工作空间所有者调整任务优先级2023-10-30
高性能AI算力池 v2.3 增多AZ场景适配2023-09-30
高性能AI算力池 v2.2 上线训练任务容错功能2023-08-30
高性能AI算力池 v2.0 发布算力池2.0产品,可以配合集群产品完成训练任务的管理。(原算力池产品的入口保留,更名为高性能AI算力池(经典),不影响原有功能)2023-07-26
高性能AI算力池 v1.1 发布算力池2.0产品,可以配合集群产品完成训练任务的管理。(原算力池产品的入口保留,更名为高性能AI算力池(经典),不影响原有功能)2023-07-26
高性能AI算力池 GA 优化监控和日志的展现形态,新增任务Worker事件,支持登录到任务Worker中2023-03-31
高性能AI算力池 RC 兼容RoCE训练网络2023-02-28
高性能AI算力池 Beta 支持高性能AI算力池的退订和续订2022-12-31
高性能AI算力池 Alpha2 新增任务监控、日志等功能2022-10-31
高性能AI算力池 Alpha 支持用户创建高性能AI算力池并提交训练任务2022-09-30