获取任务列表
获取任务列表
Path Parameters
订阅
资源组
可用区. 工作空间可用区,一般为region+z,例如:上海的region为cn-sh-01,工作空间的可用区则为cn-sh-01z
工作空间名称
Query Parameters
可选,单页结果数,默认10,最大500,需为非负整数,如果不填或填0,则使用默认值。超过最大值则使用最大值,负值将返回错误
可选,指定要使用的页码,默认1.如果未指定则使用默认值,非正值返回错误
可选,过滤条件. 当前支持按照任务ID(id)、任务名称(display_name),如:filter = "display_name = 'test' OR id = '12345'" 创建时间进行过滤,如:'begin_date':'2023-02-08T08:13:24.660710Z','end_date':'2023-02-08T08:16:15.498162Z',左闭右开
可选, 训练任务name
可选, 任务名称. 可通过该字段搜索. 需满足:2~128个字符;以大小写字母或中文开头;可包含数字、点号(.)、下划线(_)、半角冒号(:)或连字符(-)
Possible values: [STATE_UNSPECIFIED
, WAITING
, INIT
, QUEUEING
, CREATING
, STARTING
, RUNNING
, RESTARTING
, SUSPENDING
, SUSPENDED
, SUCCEEDED
, FAILED
, DELETING
, DELETED
, RECOVERING
]
可选,任务状态.可通过该字段搜索. 等待中[Waiting]、初始化[Init]、排队中[Queueing]、创建中[Creating]、运行中[Running]、启动中[Starting]、重启中[Restarting]、暂停中[Suspending]、已暂停[Suspended]、成功[Succeeded]、失败[Failed]、删除中[Deleting]、已删除[Deleted]、恢复中[Recoving]
可选,用户提交者,可通过该字段搜索
可选,过滤条件, AI弹性计算集群名称
Possible values: [PRIORITY_UNSPECIFIED
, NORMAL
, HIGH
, HIGHEST
]
可选,任务优先级. 普通[NORMAL]、高优[HIGH]、最高[HIGHEST]
- 200
- default
OK
Schema
- Array [
- Array [
- Array [
- ]
- ]
- Array [
- ]
- Array [
- ]
- ]
training_jobs object[]
训练任务列表
可选,任务名称. 不填写,则由后台默认随机生成. 若填入,则需要遵循以下规范: 1、1~63个字符 2、小写字母开头,小写字母或数字结尾 3、可包含小写英文字母、数字、中划线-
任务显示名. 需遵循规范: 1、1-63个字符 2、以中文字符、英文字母或数字开头 3、可包含中文字符、英文字母、数字、下划线“_"和连字符"-"
ownership object
所有权关系. 只输出,请求无需传入
Possible values: [FRAMEWORK_UNSPECIFIED
, MPI
, PYTORCH
, PYTORCH_DDP
, TENSORFLOW
, TENSORFLOW_PS
, SENSEPARROTS
, SENSEPARROTS_DDP
]
框架类型
roles object[] required
角色. 当前仅支持填写单个role
角色名. 当前只支持填写Worker
resource_spec object[] required
资源规格
资源规格名称. 根据资源规格列表获取. 例: N2lS.Ie.I60.2
请求调度副本数. 当前规格所需 worker 的数量. 当前不支持手动强异构调度,暂不支持
limits object
资源列表. key值: CPU(cpu)、内存(memory)、设备数量(device)
requests object
资源列表. key值: CPU(cpu)、内存(memory)、设备数量(device)
总副本. 所需 worker 的数量. 选择自动弱异构调度或者单规格时,total_replicas 必传
启动脚本
镜像真实uri path
env object[]
可选,环境变量配置,最多支持10个
key
value
mount object[]
卷挂载
Possible values: [MOUNT_TYPE_UNSPECIFIED
, PV_AFS
, PV_ACS
]
挂载类型
存储 id
挂载路径
指定挂载A卷下的子目录
tensorboard object
TensorBoard配置
开启tensorboard之后的日志路径,需要与任一存储卷挂载路径保持一致. 是否开启tensorboard,根据路径值来判断
scheduling object
调度相关
Possible values: [PRIORITY_UNSPECIFIED
, NORMAL
, HIGH
, HIGHEST
]
调度优先级, 默认为: NORMAL
Possible values: [JOB_QUOTA_TYPE_UNSPECIFIED
, RESERVED
, SPOT
]
可选, 任务闲时配额. 默认为: RESERVED 当前支持RESERVED和SPOT两种 只有集群开启显示配额,才能创建闲时资源(spot)任务 只有集群和工作空间的关联关系为全部时,才能创建标准(reserved)任务
resource_pool object required
资源池
资源名称. 例: 集群名称、预留配额名称等,需要和资源类型对应上
公共集群的可用区,仅当使用公共集群创建任务时,需要传入,内容要与vpc_id对应上
vpc id. 使用公共集群创建任务时,需要指定vpc的id
[beta]模型微调配置项[json string]
async_checkpoint object
[beta]AsyncCheckpoint. 是否开启,根据最大缓存轮数来判断
[beta]最大缓存轮数
lme object
[beta]大模型可配置项
[beta]任务运行前是否开启环境诊断
[beta]配置重试最大次数
[beta]是否开启健康检测
下一页的token,用户需将该值作为下一次请求的page_token透传回来
符合当前查询条件的数据条数有限值,用于评估后续页数. 计算方法:根据request的 (page_token-1) * page_size + n,其中n最大值为10000,如果符合条件的数据条数达不到最大值,则为实际符合条件的数据总条数
{
"training_jobs": [
{
"subscription_name": "string",
"resource_group_name": "string",
"zone": "string",
"workspace_name": "string",
"name": "string",
"uid": "string",
"display_name": "string",
"id": "string",
"ownership": {
"user_name": "string",
"user_id": "string",
"requestor_id": "string",
"tenant_id": "string"
},
"framework": "FRAMEWORK_UNSPECIFIED",
"roles": [
{
"name": "string",
"resource_spec": [
{
"name": "string",
"replicas": 0,
"description": "string",
"limits": {},
"requests": {}
}
],
"total_replicas": 0,
"startup_script": "string",
"image_path": "string"
}
],
"env": [
{
"key": "string",
"value": "string"
}
],
"mount": [
{
"type": "MOUNT_TYPE_UNSPECIFIED",
"id": "string",
"mount_path": "string",
"subdir": "string"
}
],
"tensorboard": {
"log_path": "string"
},
"scheduling": {
"priority": "PRIORITY_UNSPECIFIED",
"quota_type": "JOB_QUOTA_TYPE_UNSPECIFIED"
},
"resource_pool": {
"name": "string",
"display_name": "string",
"zone": "string",
"vpc_id": "string"
},
"state": "STATE_UNSPECIFIED",
"root_mapping": true,
"create_time": "2024-12-05T02:41:59.548Z",
"start_time": "2024-12-05T02:41:59.548Z",
"suspend_time": "2024-12-05T02:41:59.548Z",
"update_time": "2024-12-05T02:41:59.548Z",
"complete_time": "2024-12-05T02:41:59.548Z",
"delete_time": "2024-12-05T02:41:59.548Z",
"fine_tuning_specs": "string",
"async_checkpoint": {
"max_ckpt_rounds": 0
},
"lme": {
"enable_warmingup": true,
"max_retries": 0,
"enable_health_monitor": true,
"current_retries": 0
}
}
],
"next_page_token": "string",
"total_size": 0
}
Default error response
Schema
- Array [
- ]
The status code, which should be an enum value of [google.rpc.Code][google.rpc.Code].
A developer-facing error message, which should be in English. Any user-facing error message should be localized and sent in the [google.rpc.Status.details][google.rpc.Status.details] field, or localized by the client.
details object[]
A list of messages that carry the error details. There is a common set of message types for APIs to use.
The type of the serialized message.
{
"code": 0,
"message": "string",
"details": [
{
"@type": "string"
}
]
}