九月产品动态详情
产品迭代说明
1、训练框架和分布式架构做了组合,整合了几种常见的组合,统一叫【框架】,选项为 PyTorch DDP、Tensor Flow PS,SenseParrots、 MPI。其中MPI是一种启动方式,在ACP训练池上支持用户在平台上发起 MPI 的分布式训练任务。 另外训练为单机训练还是多机训练,通过实例的副本数来决定,目前不支持自定义角色。
2、任务列表(作业维度)和worker列表(pod维度)增加如下几项指标:训练网吞吐、NVLINK吞吐、GPU SM设备利用率、GPU温度、GPU功耗。其中训练网吞吐在1个worker占用8卡(整个Node节点)的时候,才会展示训练网吞吐指标。
3、支持国产化芯片沐曦C500,9月份支持单机整节点训练任务,如果有业务资源需求请联系商汤商务。
4、【任务列表】页面 顶部的任务【状态】和【关联集群】 过滤项,挪到表头,和【优先级】效果一致。
5、支持任务批量停止和批量启动操作:控制台新增任务批量停止和批量启动能力;开放对应API。
6、调整任务name和display name的校验规则:对齐云管理平台规范。
SCO迭代说明
1、sco acp支持批量功能:批量启动和批量停止 start/stop
- sco中 sco acp jobs restart废除,新增sco acp jobs start,支持批量启动任务。
- sco中 sco acp jobs stop,支持批量停止任务。
Slurm兼容工具 SCC
1、SCC的下载链接不再依赖SCC的版本号,例如”https://scc.aoss.cn-sh-01.sensecoreapi-oss.cn/v2.9.5/install.sh“ 更改为”https://scc.aoss.cn-sh-01.sensecoreapi-oss.cn/latest/install.sh“。
2、更新了srun的example,适配ACP API v2升级的参数修改。