创建任务
创建任务
Path Parameters
订阅
资源组
可用区. 工作空间可用区,一般为region+z,例如:上海的region为cn-sh-01,工作空间的可用区则为cn-sh-01z
工作空间名称
Query Parameters
训练任务名称
Request Body required
- Array [
- Array [
- ]
- ]
- Array [
- ]
- Array [
- ]
可选,任务名称. 不填写,则由后台默认随机生成. 若填入,则需要遵循以下规范: 1、1~63个字符 2、小写字母开头,小写字母或数字结尾 3、可包含小写英文字母、数字、中划线-
任务显示名. 需遵循规范: 1、1-63个字符 2、以中文字符、英文字母或数字开头 3、可包含中文字符、英文字母、数字、下划线“_"和连字符"-"
ownership object
所有权关系. 只输出,请求无需传入
Possible values: [FRAMEWORK_UNSPECIFIED
, MPI
, PYTORCH
, PYTORCH_DDP
, TENSORFLOW
, TENSORFLOW_PS
, SENSEPARROTS
, SENSEPARROTS_DDP
]
框架类型
roles object[] required
角色. 当前仅支持填写单个role
角色名. 当前只支持填写Worker
resource_spec object[] required
资源规格
资源规格名称. 根据资源规格列表获取. 例: N2lS.Ie.I60.2
请求调度副本数. 当前规格所需 worker 的数量. 当前不支持手动强异构调度,暂不支持
limits object
资源列表. key值: CPU(cpu)、内存(memory)、设备数量(device)
requests object
资源列表. key值: CPU(cpu)、内存(memory)、设备数量(device)
总副本. 所需 worker 的数量. 选择自动弱异构调度或者单规格时,total_replicas 必传
启动脚本
镜像真实uri path
env object[]
可选,环境变量配置,最多支持10个
key
value
mount object[]
卷挂载
Possible values: [MOUNT_TYPE_UNSPECIFIED
, PV_AFS
, PV_ACS
]
挂载类型
存储 id
挂载路径
指定挂载A卷下的子目录
tensorboard object
TensorBoard配置
开启tensorboard之后的日志路径,需要与任一存储卷挂载路径保持一致. 是否开启tensorboard,根据路径值来判断
scheduling object
调度相关
Possible values: [PRIORITY_UNSPECIFIED
, NORMAL
, HIGH
, HIGHEST
]
调度优先级, 默认为: NORMAL
Possible values: [JOB_QUOTA_TYPE_UNSPECIFIED
, RESERVED
, SPOT
]
可选, 任务闲时配额. 默认为: RESERVED 当前支持RESERVED和SPOT两种 只有集群开启显示配额,才能创建闲时资源(spot)任务 只有集群和工作空间的关联关系为全部时,才能创建标准(reserved)任务
resource_pool object required
资源池
资源名称. 例: 集群名称、预留配额名称等,需要和资源类型对应上
公共集群的可用区,仅当使用公共集群创建任务时,需要传入,内容要与vpc_id对应上
vpc id. 使用公共集群创建任务时,需要指定vpc的id
[beta]模型微调配置项[json string]
async_checkpoint object
[beta]AsyncCheckpoint. 是否开启,根据最大缓存轮数来判断
[beta]最大缓存轮数
lme object
[beta]大模型可配置项
[beta]任务运行前是否开启环境诊断
[beta]配置重试最大次数
[beta]是否开启健康检测
- 200
- default
OK
Schema
- Array [
- Array [
- ]
- ]
- Array [
- ]
- Array [
- ]
可选,任务名称. 不填写,则由后台默认随机生成. 若填入,则需要遵循以下规范: 1、1~63个字符 2、小写字母开头,小写字母或数字结尾 3、可包含小写英文字母、数字、中划线-
任务显示名. 需遵循规范: 1、1-63个字符 2、以中文字符、英文字母或数字开头 3、可包含中文字符、英文字母、数字、下划线“_"和连字符"-"
ownership object
所有权关系. 只输出,请求无需传入
Possible values: [FRAMEWORK_UNSPECIFIED
, MPI
, PYTORCH
, PYTORCH_DDP
, TENSORFLOW
, TENSORFLOW_PS
, SENSEPARROTS
, SENSEPARROTS_DDP
]
框架类型
roles object[] required
角色. 当前仅支持填写单个role
角色名. 当前只支持填写Worker
resource_spec object[] required
资源规格
资源规格名称. 根据资源规格列表获取. 例: N2lS.Ie.I60.2
请求调度副本数. 当前规格所需 worker 的数量. 当前不支持手动强异构调度,暂不支持
limits object
资源列表. key值: CPU(cpu)、内存(memory)、设备数量(device)
requests object
资源列表. key值: CPU(cpu)、内存(memory)、设备数量(device)
总副本. 所需 worker 的数量. 选择自动弱异构调度或者单规格时,total_replicas 必传
启动脚本
镜像真实uri path
env object[]
可选,环境变量配置,最多支持10个
key
value
mount object[]
卷挂载
Possible values: [MOUNT_TYPE_UNSPECIFIED
, PV_AFS
, PV_ACS
]
挂载类型
存储 id
挂载路径
指定挂载A卷下的子目录
tensorboard object
TensorBoard配置
开启tensorboard之后的日志路径,需要与任一存储卷挂载路径保持一致. 是否开启tensorboard,根据路径值来判断
scheduling object
调度相关
Possible values: [PRIORITY_UNSPECIFIED
, NORMAL
, HIGH
, HIGHEST
]
调度优先级, 默认为: NORMAL
Possible values: [JOB_QUOTA_TYPE_UNSPECIFIED
, RESERVED
, SPOT
]
可选, 任务闲时配额. 默认为: RESERVED 当前支持RESERVED和SPOT两种 只有集群开启显示配额,才能创建闲时资源(spot)任务 只有集群和工作空间的关联关系为全部时,才能创建标准(reserved)任务
resource_pool object required
资源池
资源名称. 例: 集群名称、预留配额名称等,需要和资源类型对应上
公共集群的可用区,仅当使用公共集群创建任务时,需要传入,内容要与vpc_id对应上
vpc id. 使用公共集群创建任务时,需要指定vpc的id
[beta]模型微调配置项[json string]
async_checkpoint object
[beta]AsyncCheckpoint. 是否开启,根据最大缓存轮数来判断
[beta]最大缓存轮数
lme object
[beta]大模型可配置项
[beta]任务运行前是否开启环境诊断
[beta]配置重试最大次数
[beta]是否开启健康检测
{
"subscription_name": "string",
"resource_group_name": "string",
"zone": "string",
"workspace_name": "string",
"name": "string",
"uid": "string",
"display_name": "string",
"id": "string",
"ownership": {
"user_name": "string",
"user_id": "string",
"requestor_id": "string",
"tenant_id": "string"
},
"framework": "FRAMEWORK_UNSPECIFIED",
"roles": [
{
"name": "string",
"resource_spec": [
{
"name": "string",
"replicas": 0,
"description": "string",
"limits": {},
"requests": {}
}
],
"total_replicas": 0,
"startup_script": "string",
"image_path": "string"
}
],
"env": [
{
"key": "string",
"value": "string"
}
],
"mount": [
{
"type": "MOUNT_TYPE_UNSPECIFIED",
"id": "string",
"mount_path": "string",
"subdir": "string"
}
],
"tensorboard": {
"log_path": "string"
},
"scheduling": {
"priority": "PRIORITY_UNSPECIFIED",
"quota_type": "JOB_QUOTA_TYPE_UNSPECIFIED"
},
"resource_pool": {
"name": "string",
"display_name": "string",
"zone": "string",
"vpc_id": "string"
},
"state": "STATE_UNSPECIFIED",
"root_mapping": true,
"create_time": "2024-11-04T06:28:49.172Z",
"start_time": "2024-11-04T06:28:49.172Z",
"suspend_time": "2024-11-04T06:28:49.172Z",
"update_time": "2024-11-04T06:28:49.172Z",
"complete_time": "2024-11-04T06:28:49.172Z",
"delete_time": "2024-11-04T06:28:49.172Z",
"fine_tuning_specs": "string",
"async_checkpoint": {
"max_ckpt_rounds": 0
},
"lme": {
"enable_warmingup": true,
"max_retries": 0,
"enable_health_monitor": true,
"current_retries": 0
}
}
Default error response
Schema
- Array [
- ]
The status code, which should be an enum value of [google.rpc.Code][google.rpc.Code].
A developer-facing error message, which should be in English. Any user-facing error message should be localized and sent in the [google.rpc.Status.details][google.rpc.Status.details] field, or localized by the client.
details object[]
A list of messages that carry the error details. There is a common set of message types for APIs to use.
The type of the serialized message.
{
"code": 0,
"message": "string",
"details": [
{
"@type": "string"
}
]
}