查询指标 | 大装置帮助中心
跳到主要内容

查询指标

名称

sco cms metrics query - 查询指标

说明

sco cms metrics query [FLAG ...]

描述

查询指标。

命令行标志

  • --start : 不可为空,需要指定开始时间.
  • --end : 不可为空,需要指定结束时间,支持各种时间样式。
  • --step : 不可为空,需要指标间隔步长,支持各种时间样式。
  • --resourceId : 不可为空,需要指定用于筛选指标的资源 ID。
  • --dashboard : 不可为空,需要指定仪表盘。
  • --panel : 不可为空,需要指定面板。
  • --telemetryStation : 可以为空,默认为当前用户的 telemetryStation Name。
  • --metrics-filter : 可以为空,需要指定用于任务或 pod 的自定义筛选器。

参数 dashboard 和 panel 的列举

云开发机

  • 机器存在 gpu/dcu 设备的情况下,查询下列指标时需带上--metrics-filter "gpu"="{{gpu编号}}"/"dcu"="{{dcu编号}}"参数
CategoryDescriptionDashboardPanel
云开发机cpu 使用率aiclBasicDetail
云开发机内存使用率aiclBasicDetail
云开发机内存使用量aiclBasicDetail
云开发机内存申请量aiclBasicDetail
云开发机gpu 使用率aiclGpuDetail
云开发机显存使用率aiclGpuDetail
云开发机显存使用量aiclGpuDetail
云开发机显存使用总量aiclGpuDetail
云开发机cpu 使用率 maxaiclBasicSummary
云开发机cpu 使用率 minaiclBasicSummary
云开发机cpu 使用率 avgaiclBasicSummary
云开发机内存使用率 maxaiclBasicSummary
云开发机内存使用率 minaiclBasicSummary
云开发机内存使用率 avgaiclBasicSummary
云开发机gpu 使用率 maxaiclBasicSummary
云开发机gpu 使用率 minaiclBasicSummary
云开发机gpu 使用率 avgaiclBasicSummary
云开发机显存使用率 maxaiclBasicSummary
云开发机显存使用率 minaiclBasicSummary
云开发机显存使用率 avgaiclBasicSummary
云开发机内存使用量aiclMemAmount
云开发机内存申请量aiclMemAmount
云开发机显存使用量aiclGpuMemAmount
云开发机显存使用总量aiclGpuMemAmount
云开发机cpu 使用率aiclCpuUtil
云开发机内存使用率aiclMemUtil
云开发机gpu 使用率aiclGpuUtil
云开发机显存使用率aiclGpuMemUtil

数据管理平台

CategoryDescriptionDashboardPanel
数据管理平台版本库数量aidmpPlatform
数据管理平台版本库数量限制,-1 代表无限aidmpPlatform
数据管理平台已上传的文件个数总量aidmpPlatform
数据管理平台已使用的数据包个数aidmpPlatform
数据管理平台数据管理平台用户数aidmpPlatform
数据管理平台数据存储已用空间aidmpPlatform
数据管理平台数据包的使用率aidmpPlatform
数据管理平台资源总已用容量aidmpDataSummary
数据管理平台资源公网流出aidmpDataSummary
数据管理平台资源公网流入aidmpDataSummary
数据管理平台资源内网流出aidmp-
数据管理平台资源内网流入aidmp-
数据管理平台资源总流量aidmpDataSummary
数据管理平台资源读请求数量aidmpDataSummary
数据管理平台资源写请求数量aidmpDataSummary
数据管理平台资源读写总请求数量aidmpDataSummary

云服务器

CategoryDescriptionDashboardPanel
云服务器cpu 使用率ecsCpuUtil
云服务器内存使用率ecsMemUtil
云服务器内存使用量ecsMemAmount
云服务器内存总量ecsMemAmount
云服务器磁盘读 iopsecsStorageIOPS
云服务器磁盘写 iopsecsStorageIOPS
云服务器网络入流速ecsNetwork
云服务器网路出流速ecsNetwork
云服务器gpu 使用率ecsGpuUtil
云服务器gpu 显存使用率ecsGpuMemUtil
云服务器gpu 显存空闲量ecsGpuMemAmount
云服务器gpu 显存使用量ecsGpuMemAmount
云服务器gpu 显存总量ecsGpuMemAmount

云服务器(单gpu卡)

如果应用运行在带有 gpu 的服务器上,查询下列指标时需带上--metrics-filter "gpu"="{{GPU编号}}"参数

CategoryDescriptionDashboardPanel
云服务器gpu 使用率(单 gpu 卡)ecsGpuUtilDetail
云服务器gpu 显存使用率(单 gpu 卡)ecsGpuMemUtilDetail
云服务器gpu 显存空闲量(单 gpu 卡)ecsGpuMemAmountDetail
云服务器gpu 显存使用量(单 gpu 卡)ecsGpuMemAmountDetail
云服务器gpu 显存总量(单 gpu 卡)ecsGpuMemAmountDetail

云容器实例

如果应用运行在带有 gpu 的实例上,查询下列指标时需带上--metrics-filter "label_cci_lepton_sensetime_com_deployment_name"="{{部署应用名称}}" --metrics-filter "gpu"=".*" --metrics-filter "exported_pod"=".*"参数

CategoryDescriptionDashboardPanel
云容器实例显存使用率cdiGpuMemUtilTotal
云容器实例显存使用量cdiGpuMemAmountTotal
云容器实例cpu 使用率cdiCpuUtil
云容器实例内存使用率cdiMemUtil
云容器实例内存使用量cdiMemAmount
云容器实例gpu 使用率cdiGpuUtilTotal

弹性裸金属服务器

CategoryDescriptionDashboardPanel
弹性裸金属服务器CPU 使用率bmsCpuUtil
弹性裸金属服务器内存使用率bmsMemUtil
弹性裸金属服务器内存使用量bmsMemAmount
弹性裸金属服务器内存未使用量bmsMemAmount
弹性裸金属服务器内存总量bmsMemAmount
弹性裸金属服务器平均 GPU 使用率bmsGpuUtilTotal
弹性裸金属服务器显存使用率bmsGpuMemUtilTotal
弹性裸金属服务器显存使用量bmsGpuMemAmountTotal
弹性裸金属服务器显存未使用量bmsGpuMemAmountTotal
弹性裸金属服务器显存总量bmsGpuMemAmountTotal
弹性裸金属服务器GPU 使用率bmsGpuUtil
弹性裸金属服务器显存使用率bmsGpuMemUtil
弹性裸金属服务器显存使用量bmsGpuMemAmount
弹性裸金属服务器显存未使用量bmsGpuMemAmount
弹性裸金属服务器显存总量bmsGpuMemAmount

高性能 AI 算力池工作空间

任务的整体指标

查询算力池训练任务的下列指标的时候需要加上 --metrics-filter "label_acp_lepton_sensetime_com_job_name"="{{训练任务名称}}"参数

CategoryDescriptionDashboardPanel
高性能 AI 算力池工作空间cpu 使用率acpnewJobCpuUtilization
高性能 AI 算力池工作空间内存使用率acpnewJobMemUtilization
高性能 AI 算力池工作空间内存使用量acpnewJobMemAmount
高性能 AI 算力池工作空间gpu 使用率acpnewJobGpuUtilTotal
高性能 AI 算力池工作空间显存使用率acpnewJobGpuMemUtilTotal
高性能 AI 算力池工作空间显存使用量acpnewJobGpuMemAmountTotal
高性能 AI 算力池工作空间gpu 功率acpnewJobGpuPoweruUsageTotal
高性能 AI 算力池工作空间平均 gpu 利用率acpnewJobGpuUtilTotalAvg

任务中的某个部署指标

CategoryDescriptionDashboardPanel
高性能 AI 算力池工作空间cpu 使用率acpnewDeploymentCpuUtilization
高性能 AI 算力池工作空间内存使用率acpnewDeploymentMemUtilization
高性能 AI 算力池工作空间内存使用量acpnewDeploymentMemAmount
高性能 AI 算力池工作空间gpu 使用率acpnewDeploymentGpuUtilTotal
高性能 AI 算力池工作空间显存使用率acpnewDeploymentGpuMemUtilTotal
高性能 AI 算力池工作空间显存使用量acpnewDeploymentGpuMemAmountTotal
高性能 AI 算力池工作空间gpu 功率acpnewDeploymentGpuPoweruUsageTotal
高性能 AI 算力池工作空间平均 gpu 利用率acpnewDeploymentGpuUtilTotalAvg

任务中的单个容器指标

查询算力池训练任务的某个容器的下列指标的时候需要加上 --metrics-filter "label_acp_lepton_sensetime_com_job_name"="{{训练任务名称}}" --metrics-filter "gpu"=".*" --metrics-filter "exported_pod"="{{pod名称}}"参数

CategoryDescriptionDashboardPanel
高性能 AI 算力池工作空间cpu 使用率acpnewWorkerCpuUtilization
高性能 AI 算力池工作空间内存使用率acpnewWorkerMemUtilization
高性能 AI 算力池工作空间内存使用量acpnewWorkerMemAmount
高性能 AI 算力池工作空间gpu 使用率acpnewWorkerGpuUtilTotal
高性能 AI 算力池工作空间显存使用率acpnewWorkerGpuMemUtilTotal
高性能 AI 算力池工作空间显存使用量acpnewWorkerGpuMemAmountTotal

AI 弹性计算集群

CategoryDescriptionDashboardPanel
AI 弹性计算集群cpu 使用率aec2Aec2CpuUtil
AI 弹性计算集群内存使用率aec2Aec2MemUtil
AI 弹性计算集群内存使用量aec2Aec2MemAmount
AI 弹性计算集群内存总量aec2Aec2MemAmount
AI 弹性计算集群gpu 使用率aec2Aec2GpuUtil
AI 弹性计算集群显存使用率aec2Aec2GpuMemUtil
AI 弹性计算集群显存使用量aec2Aec2GpuMemAmount
AI 弹性计算集群显存总量aec2Aec2GpuMemAmount
AI 弹性计算集群gpu 功率aec2Aec2GpuPowerUsage
AI 弹性计算集群cpu 使用率aec2AcnSummery
AI 弹性计算集群内存使用率aec2AcnSummery
AI 弹性计算集群cpu 使用率aec2AcnCpuUtil
AI 弹性计算集群内存使用率aec2AcnMemUtil
AI 弹性计算集群内存使用量aec2AcnMemAmount
AI 弹性计算集群内存总量aec2AcnMemAmount
AI 弹性计算集群gpu 使用率aec2AcnGpuUtil
AI 弹性计算集群显存使用率aec2AcnGpuMemUtil
AI 弹性计算集群显存使用量aec2AcnGpuMemAmount
AI 弹性计算集群显存总量aec2AcnGpuMemAmount
AI 弹性计算集群gpu 功率aec2AcnGpuPowerUsage
AI 弹性计算集群cpu 使用率aec2JobCpuUtil
AI 弹性计算集群内存使用率aec2JobMemUtil
AI 弹性计算集群内存使用量aec2JobMemAmount
AI 弹性计算集群内存总量aec2JobMemAmount
AI 弹性计算集群gpu 使用率aec2JobGpuUtil
AI 弹性计算集群显存使用率aec2JobGpuMemUtil
AI 弹性计算集群显存使用量aec2JobGpuMemAmount
AI 弹性计算集群显存总量aec2JobGpuMemAmount
AI 弹性计算集群gpu 功率aec2JobGpuPowerUsage
AI 弹性计算集群cpu 使用率aec2WorkerCpuUtil
AI 弹性计算集群内存使用率aec2WorkerMemUtil
AI 弹性计算集群内存使用量aec2WorkerMemAmount
AI 弹性计算集群内存总量aec2WorkerMemAmount
AI 弹性计算集群gpu 使用率aec2WorkerGpuUtil
AI 弹性计算集群显存使用率aec2WorkerGpuMemUtil
AI 弹性计算集群显存使用量aec2WorkerGpuMemAmount
AI 弹性计算集群显存总量aec2WorkerGpuMemAmount
AI 弹性计算集群gpu 功率aec2WorkerGpuPowerUsage

EIP 网络

CategoryDescriptionDashboardPanel
EIP 网络eip 出带宽eipEipTXTotal
EIP 网络eip 入带宽eipEipRXTotal

AI 文件存储

CategoryDescriptionDashboardPanel
AI 文件存储读操作 IOPSafsIOPS
AI 文件存储写操作 IOPSafsIOPS
AI 文件存储读操作吞吐afsThroughput
AI 文件存储写操作吞吐afsThroughput
AI 文件存储读操作延迟afsLatency
AI 文件存储写操作延迟afsLatency
AI 文件存储元数据 QPSafsMetaQPS
AI 文件存储已用容量afsCapacity
AI 文件存储总容量afsCapacity
AI 文件存储剩余容量afsCapacity
AI 文件存储容量利用率afsCapacityUtil
AI 文件存储文件数量afsFileCount

AI 对象存储

查询下列指标时需带上--metrics-filter "quark__native_id"="{{quark__native_id}}"参数

CategoryDescriptionDashboardPanel
AI 对象存储桶总已用容量aossBucketSummary/BucketUsage
AI 对象存储HDD 已用容量aossBucketSummary/BucketUsage
AI 对象存储SSD 已用容量aossBucketSummary/BucketUsage
AI 对象存储桶公网流出aossBucketSummary
AI 对象存储桶公网流入aossBucketSummary
AI 对象存储桶内网流出aossBucketSummary
AI 对象存储桶内网流入aossBucketSummary
AI 对象存储桶总流量aossBucketSummary
AI 对象存储桶读请求数量aossBucketSummary
AI 对象存储桶写请求数量aossBucketSummary
AI 对象存储桶读写总请求数量aossBucketSummary
AI 对象存储桶文件数量aossBucketSummary
AI 对象存储桶文件碎片数量aossBucketSummary
AI 对象存储桶公网流出aossBucketThroughput
AI 对象存储桶公网流入aossBucketThroughput
AI 对象存储桶内网流出aossBucketThroughput
AI 对象存储桶内网流入aossBucketThroughput
AI 对象存储桶流量总和aossBucketThroughput
AI 对象存储桶写请求次数每秒aossBucketRequest
AI 对象存储桶读请求次数每秒aossBucketRequest
AI 对象存储桶 5xx 请求次数每秒aossBucketRequest
AI 对象存储桶读写总请求次数每秒aossBucketRequest
AI 对象存储用户总已用容量aossUserSummary
AI 对象存储HDD 已用容量aossUserSummary
AI 对象存储SSD 已用容量aossUserSummary
AI 对象存储用户公网流出aossUserSummary
AI 对象存储用户公网流入aossUserSummary
AI 对象存储用户总流量aossUserSummary
AI 对象存储用户读请求数量aossUserSummary
AI 对象存储用户写请求数量aossUserSummary
AI 对象存储用户读写总请求数量aossUserSummary
AI 对象存储用户文件数量aossUserSummary
AI 对象存储用户文件碎片数量aossUserSummary
AI 对象存储资源包总已用容量aossPackSummary
AI 对象存储HDD 已用容量aossPackSummary
AI 对象存储SSD 已用容量aossPackSummary
AI 对象存储资源包公网流出aossPackSummary
AI 对象存储资源包公网流入aossPackSummary
AI 对象存储资源包内网流出aossPackSummary
AI 对象存储资源包内网流入aossPackSummary
AI 对象存储资源包总流量aossPackSummary
AI 对象存储资源包读请求数量aossPackSummary
AI 对象存储资源包写请求数量aossPackSummary
AI 对象存储资源包读写总请求数量aossPackSummary
AI 对象存储资源包文件数量aossPackSummary
AI 对象存储资源包文件碎片数量aossPackSummary
AI 对象存储资源包总容量aossPackCapacity
AI 对象存储资源包总已用容量aossPackCapacity
AI 对象存储用户总已用容量aossPackCapacityUtil

AI 缓存

CategoryDescriptionDashboardPanel
AI 缓存读操作 IOPSacsIOPS
AI 缓存写操作 IOPSacsIOPS
AI 缓存读操作吞吐acsThroughput
AI 缓存写操作吞吐acsThroughput
AI 缓存读源操作吞吐acsThroughput
AI 缓存写源操作吞吐acsThroughput
AI 缓存读操作延迟acsLatency
AI 缓存写操作延迟acsLatency
AI 缓存缓存命中率acsSummary
AI 缓存读操作吞吐absThroughput
AI 缓存读操作 iopsabsIOPS
AI 缓存读操作延迟absLatency
AI 缓存写操作吞吐absThroughput
AI 缓存写操作 iopsabsIOPS
AI 缓存写操作延迟absLatency
AI 缓存读操作吞吐(实时)absAbsSummary
AI 缓存读操作 iops(实时)absAbsSummary
AI 缓存读操作延迟(实时)absAbsSummary
AI 缓存写操作吞吐(实时)absAbsSummary
AI 缓存写操作 iops(实时)absAbsSummary
AI 缓存写操作延迟(实时)absAbsSummary

模型推理服务

CategoryDescriptionDashboardPanel
模型推理服务QPSamsQPS
模型推理服务调用次数amsHandledNumber
模型推理服务单 token 耗时amsPerTokenCost
模型推理服务token 吞吐amsTokenThroughput
模型推理服务首 token 延迟amsFirstTokenCost
模型推理服务cpu 利用率amsCpuUtil
模型推理服务mem 利用率amsMemUtil
模型推理服务mem 使用量amsMemAmount
模型推理服务显存用量amsGpuMemAmountTotal
模型推理服务显存利用率amsGpuMemUtilTotal
模型推理服务gpu 利用率amsGpuUtilTotal

示例

sco cms metrics query --start "2024-03-18 00:12:00"  --end "2024-04-18 00:12:00"   --step 1000 --resource-id 51ecf827-9573-11ee-b915-7ada102f1017 --telemetryStation ts-user-976f8cd6-73d8-45d7-be48-8ba3b544753c --dashboard acs_summery --panel AcsSourceThroughput
sco cms metrics query --start "2024-03-18 00:12:00" --end "2024-04-18 00:12:00" --step 1000 --resource-id 51ecf827-9573-11ee-b915-7ada102f1017 --resource-id 7f514a12-b43b-11ee-a9e7-7af9e4e0e6e5 --telemetryStation ts-user-976f8cd6-73d8-45d7-be48-8ba3b544753c --dashboard acs_summery --panel AcsSourceThroughput
sco cms metrics query --start "2024-03-18 00:12:00" --end "2024-04-18 00:12:00" --step 1000 --resource-id 51ecf827-9573-11ee-b915-7ada102f1017 --dashboard acs_summery --panel AcsSourceThroughput
sco cms metrics query --start "2024-03-18 00:12:00" --end "2024-04-18 00:12:00" --step 1000 --resource-id 51ecf827-9573-11ee-b915-7ada102f1017 --resource-id 7f514a12-b43b-11ee-a9e7-7af9e4e0e6e5 --dashboard acs_summery --panel AcsSourceThroughput
sco cms metrics query --start "2021-06-13 14:22:37" --end "2024-07-04 00:12:00" --step 86400 --resource-id e4da66a0-2ecb-11ef-924b-6693766ff313 --dashboard acpnew --panel JobGpuMemUtilTotal --metrics-filter "label_acp_lepton_sensetime_com_job_name"="pt-qzobcwzn"
sco cms metrics query --start "2021-06-13 14:22:37" --end "2024-07-04 00:12:00" --step 86400 --resource-id e4da66a0-2ecb-11ef-924b-6693766ff313 --telemetryStation ts-code1030-224bae0c --dashboard acpnew --panel JobGpuMemUtilTotal --metrics-filter "label_acp_lepton_sensetime_com_job_name"="pt-qzobcwzn"
sco cms metrics query --start "2024-07-10 13:28:00" --end "2024-07-10 14:28:00" --step 120 --resource-id a831a4aa-6811-11ee-bc1e-e612694d9db2 --dashboard acpnew --panel WorkerGpuMemUtilTotal --metrics-filter "label_acp_lepton_sensetime_com_job_name"="pt-4vn0sapj" --metrics-filter "gpu"=".*" --metrics-filter "exported_pod"="pt-4vn0sapj-worker-0"