任务监控
任务监控提供了三个维度的监控粒度,作业维度(Job)、pod维度(worker)和GPU卡粒度/网卡粒度。
- 支持实时、1小时、1天、7天,自定义时间的监控数据展示
作业维度
任务的监控主要是聚合了所有worker的平均值,以及最大值和最小值,该功能近期会上线。
pod维度
worker维度的监控,可以看到每个worker的平均值,如下图所示。在任务详情页的【任务监控】tab页,可以看到该功能。点击图表右上角的worker标识,可以展示/隐藏 该条目的数据拟合线。
卡维度
卡维度的监控,可以看到每个GPU卡或者网卡的聚合数据,如下图所示。在任务详情页的【Worker】tab页,点击【监控】可以看到该功能。点击图表右上角的卡标识,可以展示/隐藏 该条目的数据拟合线。