创建任务 | 大装置帮助中心
跳到主要内容

创建任务

基本信息



1. 工作空间:您可以从创建好的工作空间中选择一个,或者新建workspace; 2. 显示名称:您可以自定义任务显示名称; 3. 名称:您可以自定义名称(若不自定义,平台将自动生成,每个任务的名称唯一); 4. AI弹性集群:算力池的训练任务必须基于工作空间,且只能使用工作空间所关联的集群下的节点,因此这里需要选择使用某个集群的资源。其中有不同的资源类型:标准资源-专属集群、标准资源-公共集群、闲时资源;用户可在弹性集群中按需购买对应资源; 5. 地区和可用区 & VPC:针对标准资源-公共集群和闲时资源,根据购买区域资源配置VPC。

资源配置



  1. 优先级:仅针对标准资源-专属集群资源,工作空间用户只能创建普通优先级的训练任务,工作空间所有者或更高权限的用户,可以配置训练任务优先级为高优、最高,当有高优先级任务待调度时,会阻塞未调度的低优先级任务资源供给,已调度的作业资源不会被高优任务抢占,同优先级的训练任务,系统会多维度计算资源的分配进行调度;
  2. 框架:训练框架和分布式架构做了组合,整合了几种常见的组合:PyTorch DDP、TensorFlow PS、SenseParrots(国产化)和MPI。其中MPI是一种启动方式,在ACP训练池上支持用户在平台上发起 MPI 的分布式训练任务;
  3. 实例配置:训练为单机训练还是多机训练,通过实例的副本数来决定,目前不支持自定义roles角色。一个实例是Job的概念,副本是worker的概念(底层是容器pod),多副本即多个worker。一个worker(容器pod)可以支持挂载多张GPU卡,也可以绑定整个GPU服务器Node节点。以PyTorch DDP为例,1个副本=1个worker,选择N个(N>1)副本时,将创建一个master和N-1个worker;另外,如果用户需要创建128台8卡H800的作业(JOb),副本数(worker)为128,每个副本选择8卡的容器资源(GPU资源)。
  4. 容器资源:配置单容器的资源类型,此模块会根据选择的集群资源,展示可配置资源类型。
Job_AEC2
Preview

镜像配置



1. 算力池镜像:可以选择内置在算力池的官方镜像; 2. 开发机镜像:可以选择内置在AI开发机上的官方镜像; 3. 私有镜像:可以在容器镜像服务中上传用户个人镜像,若需上传个人私有镜像需购买容器镜像服务CCR并上传镜像到SenseCore中。

容错加速配置



1. 环境诊断:任务运行前/任务失败后会做服务器硬件和网络通信健康状况等环境诊断;
  1. 自动重试:若开启自动重试,在任务进行环境诊断不通过时,会尝试重启任务;遇到故障节点,将替换故障节点尝试重启任务;

    • 重试最大次数:每次发现有问题的节点,会尝试重启任务,该配置可以指定允许任务重试的最大次数;
  2. 开启任务运行中健康检测:开启任务运行中监测,系统将从大量且多样的时序数据中检测训练任务的异常情况,帮助用户提前预警在任务异常或失败情况;其中监测日志会大概延迟5分钟左右展示;

  3. 开启Checkpoint加速:开启Checkpoint加速,任务容错在重启时可从Checkpoint缓存快速读取断点前数据,从异常断点处快速启动恢复任务;当前CheckPoint服务仅支持ubuntu 20.04 22.04、centos 7、rocky 8及以上OS版本。

    - 最大缓存轮数:缓存最近三次CheckPoint

数据代码加载



1. AFS文件存储卷配置:代码&数据集可放在文件存储AFS中,填写要求如下: - AFS权限模式:由租户管理员管理,应用重新启动后可能出现权限变动。如需root权限读写,请联系租户管理员修改Posix映射管理配置; - AI文件存储卷:支持选择用户在AFS内用相文件存储卷,若无相关实例需到AFS上创建; - 存储目录:a)用户可自行填写,若填写需要自行校验挂载目录是否可读写,在AFS-目录管理中查看用户相关权限下的目录;b)默认不选择时,挂载文件存储卷下所有目录; - 挂载路径:a)若有指定目录由用户确保目录路径;b)若无可填写任意路径,后端会自行创建。
  1. ACS缓存加速实例配置:ACS本身的功能是加速对象读取性能,通过增加 mount挂载和文件接口,保留用户使用习惯,将对象数据通过文件路径挂载到本地目录;相关参数填写要求如下:
    - 缓存实例:支持选择用户在ACS内用相关缓存实例,若无相关实例需到ACS上创建;
    - 缓存加速路径:a)可选择ACS下任意缓存加速路径;b)默认不选择时,挂载缓存加速实例下所有目录;
    - 挂载路径:a)若有指定目录由用户确保目录路径;b)若无可填写任意路径,后端会自行创建。

环境配置



1. 自定义环境变量:可自主配置运行环境变量。

TensorBoard配置



1. TensorBoard配置:开启采集TensorBoard日志:a)为了保证训练结果中输出TensorBoard文件,在编写训练脚本时,您需要在脚本中添加收集TensorBoard相关代码;详看TensorBoard官方; b)配置路径需要与代码中的Tensorboard日志路径保持一致;c)且日志需要写入在文件存储AFS中,即需填写【数据代码加载】配置路径。