八月产品动态详情
产品迭代说明
1、新增训练任务【快速开始】模块:支持模型微调能力以及辅助用户快速试用ACP产品。
2、上线“SenseParrots”训练框架:基于DeepLink协议打造国产化训练框架,提供国产化芯片训练支持,接口层兼容PyTorch API,具备丰富完善的开发工具链。
- 目前仅适配了华为910B,产品持续迭代中
- 镜像需要选择: ubuntu22.04-py310-npu-910b-cann8.0.rc1.1-senseparrotsv3.0.0:0830( 910B适配版本)
- 分布式架构支持单机、单机-MPI、All Reduce-DDP、All Reduce-MPI
- 不支持CheckPoint加速能力
3、任务列表页:由原来的【规格】拆分为【任务规格】和【副本数】
4、任务详情页-基本信息: 1)名称name 830放开了允许用户指定名字,不是必选项。如果用户没指定,后端自动生成规则pt-xxxxxxxx,和之前规则一致; 2)新增UID字段。
SCO迭代说明
- --training-framework可以设置为:pytorch、tensorflow、senseparrots(新增)、mpi(新增)
- 删除--enable-mpi 选项,通过training-framework设置mpi类型的job
- 删除--distributed-architecture 选项,通过--worker-nodes数量判断是否分布式,1表示单机,其余为分布式
- 删除 --enable-cache
- 新增--name,用来指定job name
- 新增--quota-type,用来指定是reserved还是spot资源,默认是reserved
- 新增--follow,create之后查看日志
- sco cli的大版本没有更新,都为1.2,830前后没有区别。
- 730版本以前的sco cli中,acp component的版本号为v1.3.6。
- 830版本上线后,sco cli的acp component的版本号为v2.0.1。
- v2.0.1版本相比于v1.x版本有上述变化。
如果不进行更新,原有命令行无影响。如需要使用spot资源、create job自动返回日志等功能,830版本上线后。 执行sco components upgrade可以升级至v2.0.1版本。830版本上线后,下载的sco cli中默认acp component版本号就会是v2.0.1。