创建任务 | 大装置帮助中心
跳到主要内容

创建任务

基础配置

  1. 工作空间:您可以从创建好的工作空间中选择一个进而创建任务;
  2. 显示名称:您可以自定义任务显示名称;
  3. AI弹性集群:算力池的训练任务必须基于工作空间,且只能使用工作空间所关联的集群下的节点,因此这里需要选择使用某个集群的资源。其中有不同的资源类型:标准资源-专属集群、标准资源-公共集群、闲时资源;用户可在弹性集群中按需购买对应资源;
  4. 地区和可用区 & VPC:针对标准资源-公共集群和闲时资源,根据购买区域资源配置VPC;
  5. 指定预留配额:针对标准资源-公共集群和闲时资源,可配置预留资源,即保证业务资源的稳定供给,并享受预付优惠;
  6. 优先级:仅针对标准资源-专属集群资源调研而已,工作空间用户只能创建普通优先级的训练任务,工作空间所有者或更高权限的用户,可以配置训练任务优先级为高优、最高,当有高优先级任务待调度时,会阻塞未调度的低优先级任务资源供给,已调度的作业资源不会被高优任务抢占,同优先级的训练任务,系统会多维度计算资源的分配进行调度。
  7. 训练框架:支持通用的训练框架,如TensorFlow、PyTorch、MindSpore;
  8. 分布式架构:支持单机和多机下MPI、DDP等分布式训练架构;

Worker角色

  1. 容器数量:指定任务启动容器数量;
  2. 容器资源:配置单容器的资源类型,此模块会根据选择的集群资源,展示可配置资源类型;

镜像配置

  1. 算力池镜像:可以选择内置在算力池的官方镜像;
  2. 开发机镜像:可以选择内置在AI开发机上的官方镜像;
  3. 私有镜像:可以在容器镜像服务中上传用户个人镜像,若需上传个人私有镜像需购买容器镜像服务CCR并上传镜像到SenseCore中;

容错加速配置

  1. 开启容错重启:开启容错后,我们会在任务启动前为您检查GPU和网络通信的可用性,一旦发现有问题的节点,我们会重新选择其他节点尝试启动任务。同时,您也可以随时通过webterminal登录任务worker操纵任务进程,即使您杀死了任务进程,我们也会为您保留worker的现场。
  • 配置重试最大次数:每次发现GPU以及通讯出错,我们都会尝试为您重新寻找一个正常节点进行重试,该配置可以指定允许重试的最大次数。
  1. 开启任务运行中健康检测:开启任务运行中监测,系统将从大量且多样的时序数据中检测训练任务的异常情况,帮助用户提前预警在任务异常或失败情况;其中监测日志会大概延迟5分钟左右展示

  2. 开启Checkpoint加速:开启Checkpoint加速,任务容错在重启时可从Checkpoint缓存快速读取断点前数据,从异常断点处快速启动恢复任务;当前CheckPoint服务仅支持ubuntu 20.04 22.04,centos 7,rocky 8及以上OS版本;

  • 最大缓存轮数:配置Checkpoint缓存文件加载在共享内存的轮数;

数据代码加载

  1. AFS文件存储卷配置:代码&数据集可放在文件存储AFS中,填写要求如下:
  • AFS权限模式:由租户管理员管理,应用重新启动后可能出现权限变动。如需root权限读写,请联系租户管理员修改Posix映射管理配置。
  • AI文件存储卷:支持选择用户在AFS内用相文件存储卷,若无相关实例需到AFS上创建;
  • 存储目录:a)用户可自行填写,若填写需要自行校验挂载目录是否可读写,在AFS-目录管理中查看用户相关权限下的目录;b)默认不选择时,挂载文件存储卷下所有目录; -挂载路径:a)若有指定目录由用户确保目录路径;b)若无可填写任意路径,后端会自行创建;
  1. ACS缓存加速实例配置:ACS本身的功能是加速对象读取性能,通过增加 mount挂载和文件接口,保留用户使用习惯,将对象数据通过文件路径挂载到本地目录;相关参数填写要求如下:
  • 缓存实例:支持选择用户在ACS内用相关缓存实例,若无相关实例需到ACS上创建;
  • 缓存加速路径:a)可选择ACS下任意缓存加速路径;b)默认不选择时,挂载缓存加速实例下所有目录;
  • 挂载路径:a)若有指定目录由用户确保目录路径;b)若无可填写任意路径,后端会自行创建;

高级配置

1、自定义环境变量:可自主配置运行环境变量;

2、TensorBoard配置:开启采集TensorBoard日志:a)为了保证训练结果中输出TensorBoard文件,在编写训练脚本时,您需要在脚本中添加收集TensorBoard相关代码;详看TensorBoard官方; b)配置路径需要与代码中的Tensorboard日志路径保持一致;c)且日志需要写入在文件存储AFS中,即需填写【数据代码加载】配置路径;