更新任务 | 大装置帮助中心
跳到主要内容

更新任务

更新任务

Path Parameters
    subscription_name string required

    订阅

    resource_group_name string required

    资源组

    zone string required

    可用区. 工作空间可用区,一般为region+z,例如:上海的region为cn-sh-01,工作空间的可用区则为cn-sh-01z

    workspace_name string required

    工作空间名称

    training_job_name string required

    训练任务名称

Query Parameters
    update_mask field-mask

    更新字段掩码,当前仅支持更新显示名称和优先级,取值分别为"display_name"和"scheduling.priority"

Request Body required
    name string

    可选,任务名称. 不填写,则由后台默认随机生成. 若填入,则需要遵循以下规范: 1、1~63个字符 2、小写字母开头,小写字母或数字结尾 3、可包含小写英文字母、数字、中划线-

    display_name string required

    任务显示名. 需遵循规范: 1、1-63个字符 2、以中文字符、英文字母或数字开头 3、可包含中文字符、英文字母、数字、下划线“_"和连字符"-"

    ownership object

    所有权关系. 只输出,请求无需传入

    framework enum required

    Possible values: [FRAMEWORK_UNSPECIFIED, MPI, PYTORCH, PYTORCH_DDP, TENSORFLOW, TENSORFLOW_PS, SENSEPARROTS, SENSEPARROTS_DDP]

    框架类型

    roles object[] required

    角色. 当前仅支持填写单个role

  • Array [
  • name string required

    角色名. 当前只支持填写Worker

    resource_spec object[] required

    资源规格

  • Array [
  • name string required

    资源规格名称. 根据资源规格列表获取. 例: N2lS.Ie.I60.2

    replicas int32

    请求调度副本数. 当前规格所需 worker 的数量. 当前不支持手动强异构调度,暂不支持

    limits object

    资源列表. key值: CPU(cpu)、内存(memory)、设备数量(device)

    property name* string
    requests object

    资源列表. key值: CPU(cpu)、内存(memory)、设备数量(device)

    property name* string
  • ]
  • total_replicas int32

    总副本. 所需 worker 的数量. 选择自动弱异构调度或者单规格时,total_replicas 必传

    startup_script string required

    启动脚本

    image_path string required

    镜像真实uri path

  • ]
  • env object[]

    可选,环境变量配置,最多支持10个

  • Array [
  • key string required

    key

    value string required

    value

  • ]
  • mount object[]

    卷挂载

  • Array [
  • type enum required

    Possible values: [MOUNT_TYPE_UNSPECIFIED, PV_AFS, PV_ACS]

    挂载类型

    id string required

    存储 id

    mount_path string required

    挂载路径

    subdir string

    指定挂载A卷下的子目录

  • ]
  • tensorboard object

    TensorBoard配置

    log_path string

    开启tensorboard之后的日志路径,需要与任一存储卷挂载路径保持一致. 是否开启tensorboard,根据路径值来判断

    scheduling object

    调度相关

    priority enum

    Possible values: [PRIORITY_UNSPECIFIED, NORMAL, HIGH, HIGHEST]

    调度优先级, 默认为: NORMAL

    quota_type enum

    Possible values: [JOB_QUOTA_TYPE_UNSPECIFIED, RESERVED, SPOT]

    可选, 任务闲时配额. 默认为: RESERVED 当前支持RESERVED和SPOT两种 只有集群开启显示配额,才能创建闲时资源(spot)任务 只有集群和工作空间的关联关系为全部时,才能创建标准(reserved)任务

    resource_pool object required

    资源池

    name string required

    资源名称. 例: 集群名称、预留配额名称等,需要和资源类型对应上

    zone string

    公共集群的可用区,仅当使用公共集群创建任务时,需要传入,内容要与vpc_id对应上

    vpc_id string

    vpc id. 使用公共集群创建任务时,需要指定vpc的id

    fine_tuning_specs string

    [beta]模型微调配置项[json string]

    async_checkpoint object

    [beta]AsyncCheckpoint. 是否开启,根据最大缓存轮数来判断

    max_ckpt_rounds int32

    [beta]最大缓存轮数

    lme object

    [beta]大模型可配置项

    enable_warmingup boolean

    [beta]任务运行前是否开启环境诊断

    max_retries int32

    [beta]配置重试最大次数

    enable_health_monitor boolean

    [beta]是否开启健康检测

Responses

OK


Schema
    name string

    可选,任务名称. 不填写,则由后台默认随机生成. 若填入,则需要遵循以下规范: 1、1~63个字符 2、小写字母开头,小写字母或数字结尾 3、可包含小写英文字母、数字、中划线-

    display_name string required

    任务显示名. 需遵循规范: 1、1-63个字符 2、以中文字符、英文字母或数字开头 3、可包含中文字符、英文字母、数字、下划线“_"和连字符"-"

    ownership object

    所有权关系. 只输出,请求无需传入

    framework enum required

    Possible values: [FRAMEWORK_UNSPECIFIED, MPI, PYTORCH, PYTORCH_DDP, TENSORFLOW, TENSORFLOW_PS, SENSEPARROTS, SENSEPARROTS_DDP]

    框架类型

    roles object[] required

    角色. 当前仅支持填写单个role

  • Array [
  • name string required

    角色名. 当前只支持填写Worker

    resource_spec object[] required

    资源规格

  • Array [
  • name string required

    资源规格名称. 根据资源规格列表获取. 例: N2lS.Ie.I60.2

    replicas int32

    请求调度副本数. 当前规格所需 worker 的数量. 当前不支持手动强异构调度,暂不支持

    limits object

    资源列表. key值: CPU(cpu)、内存(memory)、设备数量(device)

    property name* string
    requests object

    资源列表. key值: CPU(cpu)、内存(memory)、设备数量(device)

    property name* string
  • ]
  • total_replicas int32

    总副本. 所需 worker 的数量. 选择自动弱异构调度或者单规格时,total_replicas 必传

    startup_script string required

    启动脚本

    image_path string required

    镜像真实uri path

  • ]
  • env object[]

    可选,环境变量配置,最多支持10个

  • Array [
  • key string required

    key

    value string required

    value

  • ]
  • mount object[]

    卷挂载

  • Array [
  • type enum required

    Possible values: [MOUNT_TYPE_UNSPECIFIED, PV_AFS, PV_ACS]

    挂载类型

    id string required

    存储 id

    mount_path string required

    挂载路径

    subdir string

    指定挂载A卷下的子目录

  • ]
  • tensorboard object

    TensorBoard配置

    log_path string

    开启tensorboard之后的日志路径,需要与任一存储卷挂载路径保持一致. 是否开启tensorboard,根据路径值来判断

    scheduling object

    调度相关

    priority enum

    Possible values: [PRIORITY_UNSPECIFIED, NORMAL, HIGH, HIGHEST]

    调度优先级, 默认为: NORMAL

    quota_type enum

    Possible values: [JOB_QUOTA_TYPE_UNSPECIFIED, RESERVED, SPOT]

    可选, 任务闲时配额. 默认为: RESERVED 当前支持RESERVED和SPOT两种 只有集群开启显示配额,才能创建闲时资源(spot)任务 只有集群和工作空间的关联关系为全部时,才能创建标准(reserved)任务

    resource_pool object required

    资源池

    name string required

    资源名称. 例: 集群名称、预留配额名称等,需要和资源类型对应上

    zone string

    公共集群的可用区,仅当使用公共集群创建任务时,需要传入,内容要与vpc_id对应上

    vpc_id string

    vpc id. 使用公共集群创建任务时,需要指定vpc的id

    fine_tuning_specs string

    [beta]模型微调配置项[json string]

    async_checkpoint object

    [beta]AsyncCheckpoint. 是否开启,根据最大缓存轮数来判断

    max_ckpt_rounds int32

    [beta]最大缓存轮数

    lme object

    [beta]大模型可配置项

    enable_warmingup boolean

    [beta]任务运行前是否开启环境诊断

    max_retries int32

    [beta]配置重试最大次数

    enable_health_monitor boolean

    [beta]是否开启健康检测

Loading...