创建一个新的训练任务
名称
sco acp jobs create - 创建一个新的训练任务
说明
sco acp jobs create --workspace-name=*WORKSPACE_NAME* --aec2-name=*AEC2_NAME* --job-name=*JOB_NAME* [--priority=*PRIORITY*] [--storage-mount=[*VOULUME_ID*:*PATH*,...]] --container-image-url='*IMAGE_URI*' --training-framework=*TRAINING_FRAMEWORK* [--enable-fault-tolerance] [--enable-anomaly-detection] [--retry-times=*RETRY_TIMES*] [--env=[*ENV_KEY*:*ENV_VALUE*,...]] --worker-nodes=*WORKER_NUM* --worker-spec=*WORKER_SPEC* --command='*COMMAND*;...'
描述
创建一个新的训练任务。
命令行标志
必要参数:
--workspace-name
: 指定训练任务的workspace name。--aec2-name
: 指定训练任务在所选workspace下的aec2 name,公共集群创建训练任务设置为public。--job-name
: 训练任务显示名称。--container-image-url
: 指定训练任务的镜像。--training-framework
: 指定训练任务的训练框架:pytorch
、tensorflow
、tensorflow
、senseparrots
或mpi
。--worker-nodes
: 指定训练任务的节点数量。--worker-spec
: 指定训练任务在所选aec2下的的规格,如有多个规格,以','分隔。--command
: 指定训练任务的运行命令,如有多行命令,以';'分隔。
可选参数:
--priority
: 指定训练任务的调度优先级:NORMAL
、HIGH
、HIGHEST
,默认NORMAL
。--storage-mount
: 指定训练任务的挂载,需要指定afs的volume id和容器内的路径。格式:volume_id1:path1,volume_id2:path2
。enable-fault-tolerance
: 是否开启容错,主要容错手段有:重试、任务启动环境检查等。--enable-anomaly-detection
: 开启异常检测功能。如要启用此功能,需要启用'——enable-fault-tolerance'。--retry-times
: 当指定'——enable-fault-tolerance'时,设置的重试次数。--az
: 当指定'--aec2-name'为“public”时必须设置,创建训练任务所属可用区。--vpc-id
: 当指定'--aec2-name'为“public”时必须设置,创建训练任务所属VPC ID。--quota-type
: 指定job类型:spot
、reserved
, 默认reserved
。--follow
: 是否开启实时日志,如开启,创建任务成功后会查看job日志。--name
: 训练任务名称,不指定时由后端自动生成。--env
: 环境变量,以','分隔,格式:key1:value1,key2:value2
。
示例
创建 workspace name fc05f98b-2196-4d41-9ea0-c85232e1defa
aec2 name d4d8892f-933f-4512-a045-5334d186390b
下的训练任务:
sco acp jobs create --workspace-name=fc05f98b-2196-4d41-9ea0-c85232e1defa --aec2-name=d4d8892f-933f-4512-a045-5334d186390b --job-name=test --priority=HIGH --container-image-url='registry.sensetime.com/lepton/test:lastest' --training-framework=pytorch --worker-nodes=2 --worker-spec='N2lS.Ie.I60.1' --command='sleep inf'