八月产品动态详情 | 大装置帮助中心
跳到主要内容

八月产品动态详情

产品迭代说明

1、新增训练任务【快速开始】模块:支持模型微调能力以及辅助用户快速试用ACP产品。

2、上线“SenseParrots”训练框架:基于DeepLink协议打造国产化训练框架,提供国产化芯片训练支持,接口层兼容PyTorch API,具备丰富完善的开发工具链。

  • 目前仅适配了华为910B,产品持续迭代中
  • 镜像需要选择: ubuntu22.04-py310-npu-910b-cann8.0.rc1.1-senseparrotsv3.0.0:0830( 910B适配版本)
  • 分布式架构支持单机、单机-MPI、All Reduce-DDP、All Reduce-MPI
  • 不支持CheckPoint加速能力

3、任务列表页:由原来的【规格】拆分为【任务规格】和【副本数】

4、任务详情页-基本信息: 1)名称name 830放开了允许用户指定名字,不是必选项。如果用户没指定,后端自动生成规则pt-xxxxxxxx,和之前规则一致; 2)新增UID字段。

SCO迭代说明

  • --training-framework可以设置为:pytorch、tensorflow、senseparrots(新增)、mpi(新增)
  • 删除--enable-mpi 选项,通过training-framework设置mpi类型的job
  • 删除--distributed-architecture 选项,通过--worker-nodes数量判断是否分布式,1表示单机,其余为分布式
  • 删除 --enable-cache
  • 新增--name,用来指定job name
  • 新增--quota-type,用来指定是reserved还是spot资源,默认是reserved
  • 新增--follow,create之后查看日志
  • sco cli的大版本没有更新,都为1.2,830前后没有区别。
  • 730版本以前的sco cli中,acp component的版本号为v1.3.6。
  • 830版本上线后,sco cli的acp component的版本号为v2.0.1。
  • v2.0.1版本相比于v1.x版本有上述变化。

如果不进行更新,原有命令行无影响。如需要使用spot资源、create job自动返回日志等功能,830版本上线后。 执行sco components upgrade可以升级至v2.0.1版本。830版本上线后,下载的sco cli中默认acp component版本号就会是v2.0.1。