创建一个新的训练任务 | 大装置帮助中心
跳到主要内容

创建一个新的训练任务

名称

sco acp jobs create - 创建一个新的训练任务

说明

sco acp jobs create --workspace-name=*WORKSPACE_NAME* --aec2-name=*AEC2_NAME* --job-name=*JOB_NAME* [--priority=*PRIORITY*] [--storage-mount=[*VOULUME_ID*:*PATH*,...]] --container-image-url='*IMAGE_URI*' --training-framework=*TRAINING_FRAMEWORK* [--enable-fault-tolerance] [--enable-anomaly-detection] [--retry-times=*RETRY_TIMES*] [--env=[*ENV_KEY*:*ENV_VALUE*,...]] --worker-nodes=*WORKER_NUM* --worker-spec=*WORKER_SPEC* --command='*COMMAND*;...'

描述

创建一个新的训练任务。

命令行标志

必要参数:

  • --workspace-name: 指定训练任务的workspace name。
  • --aec2-name: 指定训练任务在所选workspace下的aec2 name,公共集群创建训练任务设置为public。
  • --job-name: 训练任务显示名称。
  • --container-image-url: 指定训练任务的镜像。
  • --training-framework: 指定训练任务的训练框架:pytorchtensorflowtensorflowsenseparrotsmpi
  • --worker-nodes: 指定训练任务的节点数量。
  • --worker-spec: 指定训练任务在所选aec2下的的规格,如有多个规格,以','分隔。
  • --command: 指定训练任务的运行命令,如有多行命令,以';'分隔。

可选参数:

  • --priority: 指定训练任务的调度优先级:NORMALHIGHHIGHEST,默认NORMAL
  • --storage-mount: 指定训练任务的挂载,需要指定afs的volume id和容器内的路径。格式:volume_id1:path1,volume_id2:path2
  • enable-fault-tolerance: 是否开启容错,主要容错手段有:重试、任务启动环境检查等。
  • --enable-anomaly-detection: 开启异常检测功能。如要启用此功能,需要启用'——enable-fault-tolerance'。
  • --retry-times: 当指定'——enable-fault-tolerance'时,设置的重试次数。
  • --az: 当指定'--aec2-name'为“public”时必须设置,创建训练任务所属可用区。
  • --vpc-id: 当指定'--aec2-name'为“public”时必须设置,创建训练任务所属VPC ID。
  • --quota-type: 指定job类型: spotreserved, 默认reserved
  • --follow: 是否开启实时日志,如开启,创建任务成功后会查看job日志。
  • --name: 训练任务名称,不指定时由后端自动生成。
  • --env: 环境变量,以','分隔,格式:key1:value1,key2:value2

示例

创建 workspace name fc05f98b-2196-4d41-9ea0-c85232e1defa aec2 name d4d8892f-933f-4512-a045-5334d186390b 下的训练任务:

sco acp jobs create --workspace-name=fc05f98b-2196-4d41-9ea0-c85232e1defa --aec2-name=d4d8892f-933f-4512-a045-5334d186390b --job-name=test --priority=HIGH --container-image-url='registry.sensetime.com/lepton/test:lastest' --training-framework=pytorch --worker-nodes=2 --worker-spec='N2lS.Ie.I60.1' --command='sleep inf'