获取任务列表 | 大装置帮助中心
跳到主要内容

获取任务列表

获取任务列表

Path Parameters
    subscription_name string required

    订阅

    resource_group_name string required

    资源组

    zone string required

    可用区. 工作空间可用区,一般为region+z,例如:上海的region为cn-sh-01,工作空间的可用区则为cn-sh-01z

    workspace_name string required

    工作空间名称

Query Parameters
    page_size int32

    可选,单页结果数,默认10,最大500,需为非负整数,如果不填或填0,则使用默认值。超过最大值则使用最大值,负值将返回错误

    page_token string

    可选,指定要使用的页码,默认1.如果未指定则使用默认值,非正值返回错误

    filter string

    可选,过滤条件. 当前支持按照任务ID(id)、任务名称(display_name),如:filter = "display_name = 'test' OR id = '12345'" 创建时间进行过滤,如:'begin_date':'2023-02-08T08:13:24.660710Z','end_date':'2023-02-08T08:16:15.498162Z',左闭右开

    name string

    可选, 训练任务name

    display_name string

    可选, 任务名称. 可通过该字段搜索. 需满足:2~128个字符;以大小写字母或中文开头;可包含数字、点号(.)、下划线(_)、半角冒号(:)或连字符(-)

    state enum

    Possible values: [STATE_UNSPECIFIED, WAITING, INIT, QUEUEING, CREATING, STARTING, RUNNING, RESTARTING, SUSPENDING, SUSPENDED, SUCCEEDED, FAILED, DELETING, DELETED, RECOVERING]

    可选,任务状态.可通过该字段搜索. 等待中[Waiting]、初始化[Init]、排队中[Queueing]、创建中[Creating]、运行中[Running]、启动中[Starting]、重启中[Restarting]、暂停中[Suspending]、已暂停[Suspended]、成功[Succeeded]、失败[Failed]、删除中[Deleting]、已删除[Deleted]、恢复中[Recoving]

    user_name string

    可选,用户提交者,可通过该字段搜索

    aec2_name string

    可选,过滤条件, AI弹性计算集群名称

    priority enum

    Possible values: [PRIORITY_UNSPECIFIED, NORMAL, HIGH, HIGHEST]

    可选,任务优先级. 普通[NORMAL]、高优[HIGH]、最高[HIGHEST]

Responses

OK


Schema
    training_jobs object[]

    训练任务列表

  • Array [
  • name string

    可选,任务名称. 不填写,则由后台默认随机生成. 若填入,则需要遵循以下规范: 1、1~63个字符 2、小写字母开头,小写字母或数字结尾 3、可包含小写英文字母、数字、中划线-

    display_name string required

    任务显示名. 需遵循规范: 1、1-63个字符 2、以中文字符、英文字母或数字开头 3、可包含中文字符、英文字母、数字、下划线“_"和连字符"-"

    ownership object

    所有权关系. 只输出,请求无需传入

    framework enum required

    Possible values: [FRAMEWORK_UNSPECIFIED, MPI, PYTORCH, PYTORCH_DDP, TENSORFLOW, TENSORFLOW_PS, SENSEPARROTS, SENSEPARROTS_DDP]

    框架类型

    roles object[] required

    角色. 当前仅支持填写单个role

  • Array [
  • name string required

    角色名. 当前只支持填写Worker

    resource_spec object[] required

    资源规格

  • Array [
  • name string required

    资源规格名称. 根据资源规格列表获取. 例: N2lS.Ie.I60.2

    replicas int32

    请求调度副本数. 当前规格所需 worker 的数量. 当前不支持手动强异构调度,暂不支持

    limits object

    资源列表. key值: CPU(cpu)、内存(memory)、设备数量(device)

    property name* string
    requests object

    资源列表. key值: CPU(cpu)、内存(memory)、设备数量(device)

    property name* string
  • ]
  • total_replicas int32

    总副本. 所需 worker 的数量. 选择自动弱异构调度或者单规格时,total_replicas 必传

    startup_script string required

    启动脚本

    image_path string required

    镜像真实uri path

  • ]
  • env object[]

    可选,环境变量配置,最多支持10个

  • Array [
  • key string required

    key

    value string required

    value

  • ]
  • mount object[]

    卷挂载

  • Array [
  • type enum required

    Possible values: [MOUNT_TYPE_UNSPECIFIED, PV_AFS, PV_ACS]

    挂载类型

    id string required

    存储 id

    mount_path string required

    挂载路径

    subdir string

    指定挂载A卷下的子目录

  • ]
  • tensorboard object

    TensorBoard配置

    log_path string

    开启tensorboard之后的日志路径,需要与任一存储卷挂载路径保持一致. 是否开启tensorboard,根据路径值来判断

    scheduling object

    调度相关

    priority enum

    Possible values: [PRIORITY_UNSPECIFIED, NORMAL, HIGH, HIGHEST]

    调度优先级, 默认为: NORMAL

    quota_type enum

    Possible values: [JOB_QUOTA_TYPE_UNSPECIFIED, RESERVED, SPOT]

    可选, 任务闲时配额. 默认为: RESERVED 当前支持RESERVED和SPOT两种 只有集群开启显示配额,才能创建闲时资源(spot)任务 只有集群和工作空间的关联关系为全部时,才能创建标准(reserved)任务

    resource_pool object required

    资源池

    name string required

    资源名称. 例: 集群名称、预留配额名称等,需要和资源类型对应上

    zone string

    公共集群的可用区,仅当使用公共集群创建任务时,需要传入,内容要与vpc_id对应上

    vpc_id string

    vpc id. 使用公共集群创建任务时,需要指定vpc的id

    fine_tuning_specs string

    [beta]模型微调配置项[json string]

    async_checkpoint object

    [beta]AsyncCheckpoint. 是否开启,根据最大缓存轮数来判断

    max_ckpt_rounds int32

    [beta]最大缓存轮数

    lme object

    [beta]大模型可配置项

    enable_warmingup boolean

    [beta]任务运行前是否开启环境诊断

    max_retries int32

    [beta]配置重试最大次数

    enable_health_monitor boolean

    [beta]是否开启健康检测

  • ]
  • next_page_token string

    下一页的token,用户需将该值作为下一次请求的page_token透传回来

    total_size int32

    符合当前查询条件的数据条数有限值,用于评估后续页数. 计算方法:根据request的 (page_token-1) * page_size + n,其中n最大值为10000,如果符合条件的数据条数达不到最大值,则为实际符合条件的数据总条数

Loading...