任务监控 | 大装置帮助中心
跳到主要内容

任务监控

任务监控提供了三个维度的监控粒度,作业维度(Job)、pod维度(worker)和GPU卡粒度/网卡粒度。

  • 支持实时、1小时、1天、7天,自定义时间的监控数据展示

作业维度


任务的监控主要是聚合了所有worker的平均值,以及最大值和最小值,该功能近期会上线。

pod维度


worker维度的监控,可以看到每个worker的平均值,如下图所示。在任务详情页的【任务监控】tab页,可以看到该功能。点击图表右上角的worker标识,可以展示/隐藏 该条目的数据拟合线。

卡维度


卡维度的监控,可以看到每个GPU卡或者网卡的聚合数据,如下图所示。在任务详情页的【Worker】tab页,点击【监控】可以看到该功能。点击图表右上角的卡标识,可以展示/隐藏 该条目的数据拟合线。