查询指标
名称
sco cms metrics query - 查询指标
说明
sco cms metrics query [FLAG ...]
描述
查询指标。
命令行标志
--start
: 不可为空,需要指定开始时间.--end
: 不可为空,需要指定结束时间,支持各种时间样式。--step
: 不可为空,需要指标间隔步长,支持各种时间样式。--resourceId
: 不可为空,需要指定用于筛选指标的资源 ID。--dashboard
: 不可为空,需要指定仪表盘。--panel
: 不可为空,需要指定面板。--telemetryStation
: 可以为空,默认为当前用户的 telemetryStation Name。--metrics-filter
: 可以为空,需要指定用于任务或 pod 的自定义筛选器。
参数 dashboard 和 panel 的列举
云开发机
- 机器存在 gpu/dcu 设备的情况下,查询下列指标时需带上
--metrics-filter "gpu"="{{gpu编号}}"/"dcu"="{{dcu编号}}"
参数
Category | Description | Dashboard | Panel |
---|---|---|---|
云开发机 | cpu 使用率 | aicl | BasicDetail |
云开发机 | 内存使用率 | aicl | BasicDetail |
云开发机 | 内存使用量 | aicl | BasicDetail |
云开发机 | 内存申请量 | aicl | BasicDetail |
云开发机 | gpu 使用率 | aicl | GpuDetail |
云开发机 | 显存使用率 | aicl | GpuDetail |
云开发机 | 显存使用量 | aicl | GpuDetail |
云开发机 | 显存使用总量 | aicl | GpuDetail |
云开发机 | cpu 使用率 max | aicl | BasicSummary |
云开发机 | cpu 使用率 min | aicl | BasicSummary |
云开发机 | cpu 使用率 avg | aicl | BasicSummary |
云开发机 | 内存使用率 max | aicl | BasicSummary |
云开发机 | 内存使用率 min | aicl | BasicSummary |
云开发机 | 内存使用率 avg | aicl | BasicSummary |
云开发机 | gpu 使用率 max | aicl | BasicSummary |
云开发机 | gpu 使用率 min | aicl | BasicSummary |
云开发机 | gpu 使用率 avg | aicl | BasicSummary |
云开发机 | 显存使用率 max | aicl | BasicSummary |
云开发机 | 显存使用率 min | aicl | BasicSummary |
云开发机 | 显存使用率 avg | aicl | BasicSummary |
云开发机 | 内存使用量 | aicl | MemAmount |
云开发机 | 内存申请量 | aicl | MemAmount |
云开发机 | 显存使用量 | aicl | GpuMemAmount |
云开发机 | 显存使用总量 | aicl | GpuMemAmount |
云开发机 | cpu 使用率 | aicl | CpuUtil |
云开发机 | 内存使用率 | aicl | MemUtil |
云开发机 | gpu 使用率 | aicl | GpuUtil |
云开发机 | 显存使用率 | aicl | GpuMemUtil |
数据管理平台
Category | Description | Dashboard | Panel |
---|---|---|---|
数据管理平台 | 版本库数量 | aidmp | Platform |
数据管理平台 | 版本库数量限制,-1 代表无限 | aidmp | Platform |
数据管理平台 | 已上传的文件个数总量 | aidmp | Platform |
数据管理平台 | 已使用的数据包个数 | aidmp | Platform |
数据管理平台 | 数据管理平台用户数 | aidmp | Platform |
数据管理平台 | 数据存储已用空间 | aidmp | Platform |
数据管理平台 | 数据包的使用率 | aidmp | Platform |
数据管理平台 | 资源总已用容量 | aidmp | DataSummary |
数据管理平台 | 资源公网流出 | aidmp | DataSummary |
数据管理平台 | 资源公网流入 | aidmp | DataSummary |
数据管理平台 | 资源内网流出 | aidmp | - |
数据管理平台 | 资源内网流入 | aidmp | - |
数据管理平台 | 资源总流量 | aidmp | DataSummary |
数据管理平台 | 资源读请求数量 | aidmp | DataSummary |
数据管理平台 | 资源写请求数量 | aidmp | DataSummary |
数据管理平台 | 资源读写总请求数量 | aidmp | DataSummary |
云服务器
Category | Description | Dashboard | Panel |
---|---|---|---|
云服务器 | cpu 使用率 | ecs | CpuUtil |
云服务器 | 内存使用率 | ecs | MemUtil |
云服务器 | 内存使用量 | ecs | MemAmount |
云服务器 | 内存总量 | ecs | MemAmount |
云服务器 | 磁盘读 iops | ecs | StorageIOPS |
云服务器 | 磁盘写 iops | ecs | StorageIOPS |
云服务器 | 网络入流速 | ecs | Network |
云服务器 | 网路出流速 | ecs | Network |
云服务器 | gpu 使用率 | ecs | GpuUtil |
云服务器 | gpu 显存使用率 | ecs | GpuMemUtil |
云服务器 | gpu 显存空闲量 | ecs | GpuMemAmount |
云服务器 | gpu 显存使用量 | ecs | GpuMemAmount |
云服务器 | gpu 显存总量 | ecs | GpuMemAmount |
云服务器(单gpu卡)
如果应用运行在带有 gpu 的服务器上,查询下列指标时需带上--metrics-filter "gpu"="{{GPU编号}}"
参数
Category | Description | Dashboard | Panel |
---|---|---|---|
云服务器 | gpu 使用率(单 gpu 卡) | ecs | GpuUtilDetail |
云服务器 | gpu 显存使用率(单 gpu 卡) | ecs | GpuMemUtilDetail |
云服务器 | gpu 显存空闲量(单 gpu 卡) | ecs | GpuMemAmountDetail |
云服务器 | gpu 显存使用量(单 gpu 卡) | ecs | GpuMemAmountDetail |
云服务器 | gpu 显存总量(单 gpu 卡) | ecs | GpuMemAmountDetail |
云容器实例
如果应用运行在带有 gpu 的实例上,查询下列指标时需带上--metrics-filter "label_cci_lepton_sensetime_com_deployment_name"="{{部署应用名称}}" --metrics-filter "gpu"=".*" --metrics-filter "exported_pod"=".*"
参数
Category | Description | Dashboard | Panel |
---|---|---|---|
云容器实例 | 显存使用率 | cdi | GpuMemUtilTotal |
云容器实例 | 显存使用量 | cdi | GpuMemAmountTotal |
云容器实例 | cpu 使用率 | cdi | CpuUtil |
云容器实例 | 内存使用率 | cdi | MemUtil |
云容器实例 | 内存使用量 | cdi | MemAmount |
云容器实例 | gpu 使用率 | cdi | GpuUtilTotal |
弹性裸金属服务器
Category | Description | Dashboard | Panel |
---|---|---|---|
弹性裸金属服务器 | CPU 使用率 | bms | CpuUtil |
弹性裸金属服务器 | 内存使用率 | bms | MemUtil |
弹性裸金属服务器 | 内存使用量 | bms | MemAmount |
弹性裸金属服务器 | 内存未使用量 | bms | MemAmount |
弹性裸金属服务器 | 内存总量 | bms | MemAmount |
弹性裸金属服务器 | 平均 GPU 使用率 | bms | GpuUtilTotal |
弹性裸金属服务器 | 显存使用率 | bms | GpuMemUtilTotal |
弹性裸金属服务器 | 显存使用量 | bms | GpuMemAmountTotal |
弹性裸金属服务器 | 显存未使用量 | bms | GpuMemAmountTotal |
弹性裸金属服务器 | 显存总量 | bms | GpuMemAmountTotal |
弹性裸金属服务器 | GPU 使用率 | bms | GpuUtil |
弹性裸金属服务器 | 显存使用率 | bms | GpuMemUtil |
弹性裸金属服务器 | 显存使用量 | bms | GpuMemAmount |
弹性裸金属服务器 | 显存未使用量 | bms | GpuMemAmount |
弹性裸金属服务器 | 显存总量 | bms | GpuMemAmount |
高性能 AI 算力池工作空间
任务的整体指标
查询算力池训练任务的下列指标的时候需要加上 --metrics-filter "label_acp_lepton_sensetime_com_job_name"="{{训练任务名称}}"
参数
Category | Description | Dashboard | Panel |
---|---|---|---|
高性能 AI 算力池工作空间 | cpu 使用率 | acpnew | JobCpuUtilization |
高性能 AI 算力池工作空间 | 内存使用率 | acpnew | JobMemUtilization |
高性能 AI 算力池工作空间 | 内存使用量 | acpnew | JobMemAmount |
高性能 AI 算力池工作空间 | gpu 使用率 | acpnew | JobGpuUtilTotal |
高性能 AI 算力池工作空间 | 显存使用率 | acpnew | JobGpuMemUtilTotal |
高性能 AI 算力池工作空间 | 显存使用量 | acpnew | JobGpuMemAmountTotal |
高性能 AI 算力池工作空间 | gpu 功率 | acpnew | JobGpuPoweruUsageTotal |
高性能 AI 算力池工作空间 | 平均 gpu 利用率 | acpnew | JobGpuUtilTotalAvg |
任务中的某个部署指标
Category | Description | Dashboard | Panel |
---|---|---|---|
高性能 AI 算力池工作空间 | cpu 使用率 | acpnew | DeploymentCpuUtilization |
高性能 AI 算力池工作空间 | 内存使用率 | acpnew | DeploymentMemUtilization |
高性能 AI 算力池工作空间 | 内存使用量 | acpnew | DeploymentMemAmount |
高性能 AI 算力池工作空间 | gpu 使用率 | acpnew | DeploymentGpuUtilTotal |
高性能 AI 算力池工作空间 | 显存使用率 | acpnew | DeploymentGpuMemUtilTotal |
高性能 AI 算力池工作空间 | 显存使用量 | acpnew | DeploymentGpuMemAmountTotal |
高性能 AI 算力池工作空间 | gpu 功率 | acpnew | DeploymentGpuPoweruUsageTotal |
高性能 AI 算力池工作空间 | 平均 gpu 利用率 | acpnew | DeploymentGpuUtilTotalAvg |
任务中的单个容器指标
查询算力池训练任务的某个容器的下列指标的时候需要加上 --metrics-filter "label_acp_lepton_sensetime_com_job_name"="{{训练任务名称}}" --metrics-filter "gpu"=".*" --metrics-filter "exported_pod"="{{pod名称}}"
参数
Category | Description | Dashboard | Panel |
---|---|---|---|
高性能 AI 算力池工作空间 | cpu 使用率 | acpnew | WorkerCpuUtilization |
高性能 AI 算力池工作空间 | 内存使用率 | acpnew | WorkerMemUtilization |
高性能 AI 算力池工作空间 | 内存使用量 | acpnew | WorkerMemAmount |
高性能 AI 算力池工作空间 | gpu 使用率 | acpnew | WorkerGpuUtilTotal |
高性能 AI 算力池工作空间 | 显存使用率 | acpnew | WorkerGpuMemUtilTotal |
高性能 AI 算力池工作空间 | 显存使用量 | acpnew | WorkerGpuMemAmountTotal |
AI 弹性计算集群
Category | Description | Dashboard | Panel |
---|---|---|---|
AI 弹性计算集群 | cpu 使用率 | aec2 | Aec2CpuUtil |
AI 弹性计算集群 | 内存使用率 | aec2 | Aec2MemUtil |
AI 弹性计算集群 | 内存使用量 | aec2 | Aec2MemAmount |
AI 弹性计算集群 | 内存总量 | aec2 | Aec2MemAmount |
AI 弹性计算集群 | gpu 使用率 | aec2 | Aec2GpuUtil |
AI 弹性计算集群 | 显存使用率 | aec2 | Aec2GpuMemUtil |
AI 弹性计算集群 | 显存使用量 | aec2 | Aec2GpuMemAmount |
AI 弹性计算集群 | 显存总量 | aec2 | Aec2GpuMemAmount |
AI 弹性计算集群 | gpu 功率 | aec2 | Aec2GpuPowerUsage |
AI 弹性计算集群 | cpu 使用率 | aec2 | AcnSummery |
AI 弹性计算集群 | 内存使用率 | aec2 | AcnSummery |
AI 弹性计算集群 | cpu 使用率 | aec2 | AcnCpuUtil |
AI 弹性计算集群 | 内存使用率 | aec2 | AcnMemUtil |
AI 弹性计算集群 | 内存使用量 | aec2 | AcnMemAmount |
AI 弹性计算集群 | 内存总量 | aec2 | AcnMemAmount |
AI 弹性计算集群 | gpu 使用率 | aec2 | AcnGpuUtil |
AI 弹性计算集群 | 显存使用率 | aec2 | AcnGpuMemUtil |
AI 弹性计算集群 | 显存使用量 | aec2 | AcnGpuMemAmount |
AI 弹性计算集群 | 显存总量 | aec2 | AcnGpuMemAmount |
AI 弹性计算集群 | gpu 功率 | aec2 | AcnGpuPowerUsage |
AI 弹性计算集群 | cpu 使用率 | aec2 | JobCpuUtil |
AI 弹性计算集群 | 内存使用率 | aec2 | JobMemUtil |
AI 弹性计算集群 | 内存使用量 | aec2 | JobMemAmount |
AI 弹性计算集群 | 内存总量 | aec2 | JobMemAmount |
AI 弹性计算集群 | gpu 使用率 | aec2 | JobGpuUtil |
AI 弹性计算集群 | 显存使用率 | aec2 | JobGpuMemUtil |
AI 弹性计算集群 | 显存使用量 | aec2 | JobGpuMemAmount |
AI 弹性计算集群 | 显存总量 | aec2 | JobGpuMemAmount |
AI 弹性计算集群 | gpu 功率 | aec2 | JobGpuPowerUsage |
AI 弹性计算集群 | cpu 使用率 | aec2 | WorkerCpuUtil |
AI 弹性计算集群 | 内存使用率 | aec2 | WorkerMemUtil |
AI 弹性计算集群 | 内存使用量 | aec2 | WorkerMemAmount |
AI 弹性计算集群 | 内存总量 | aec2 | WorkerMemAmount |
AI 弹性计算集群 | gpu 使用率 | aec2 | WorkerGpuUtil |
AI 弹性计算集群 | 显存使用率 | aec2 | WorkerGpuMemUtil |
AI 弹性计算集群 | 显存使用量 | aec2 | WorkerGpuMemAmount |
AI 弹性计算集群 | 显存总量 | aec2 | WorkerGpuMemAmount |
AI 弹性计算集群 | gpu 功率 | aec2 | WorkerGpuPowerUsage |
EIP 网络
Category | Description | Dashboard | Panel |
---|---|---|---|
EIP 网络 | eip 出带宽 | eip | EipTXTotal |
EIP 网络 | eip 入带宽 | eip | EipRXTotal |
AI 文件存储
Category | Description | Dashboard | Panel |
---|---|---|---|
AI 文件存储 | 读操作 IOPS | afs | IOPS |
AI 文件存储 | 写操作 IOPS | afs | IOPS |
AI 文件存储 | 读操作吞吐 | afs | Throughput |
AI 文件存储 | 写操作吞吐 | afs | Throughput |
AI 文件存储 | 读操作延迟 | afs | Latency |
AI 文件存储 | 写操作延迟 | afs | Latency |
AI 文件存储 | 元数据 QPS | afs | MetaQPS |
AI 文件存储 | 已用容量 | afs | Capacity |
AI 文件存储 | 总容量 | afs | Capacity |
AI 文件存储 | 剩余容量 | afs | Capacity |
AI 文件存储 | 容量利用率 | afs | CapacityUtil |
AI 文件存储 | 文件数量 | afs | FileCount |
AI 对象存储
查询下列指标时需带上--metrics-filter "quark__native_id"="{{quark__native_id}}"
参数
Category | Description | Dashboard | Panel |
---|---|---|---|
AI 对象存储 | 桶总已用容量 | aoss | BucketSummary/BucketUsage |
AI 对象存储 | HDD 已用容量 | aoss | BucketSummary/BucketUsage |
AI 对象存储 | SSD 已用容量 | aoss | BucketSummary/BucketUsage |
AI 对象存储 | 桶公网流出 | aoss | BucketSummary |
AI 对象存储 | 桶公网流入 | aoss | BucketSummary |
AI 对象存储 | 桶内网流出 | aoss | BucketSummary |
AI 对象存储 | 桶内网流入 | aoss | BucketSummary |
AI 对象存储 | 桶总流量 | aoss | BucketSummary |
AI 对象存储 | 桶读请求数量 | aoss | BucketSummary |
AI 对象存储 | 桶写请求数量 | aoss | BucketSummary |
AI 对象存储 | 桶读写总请求数量 | aoss | BucketSummary |
AI 对象存储 | 桶文件数量 | aoss | BucketSummary |
AI 对象存储 | 桶文件碎片数量 | aoss | BucketSummary |
AI 对象存储 | 桶公网流出 | aoss | BucketThroughput |
AI 对象存储 | 桶公网流入 | aoss | BucketThroughput |
AI 对象存储 | 桶内网流出 | aoss | BucketThroughput |
AI 对象存储 | 桶内网流入 | aoss | BucketThroughput |
AI 对象存储 | 桶流量总和 | aoss | BucketThroughput |
AI 对象存储 | 桶写请求次数每秒 | aoss | BucketRequest |
AI 对象存储 | 桶读请求次数每秒 | aoss | BucketRequest |
AI 对象存储 | 桶 5xx 请求次数每秒 | aoss | BucketRequest |
AI 对象存储 | 桶读写总请求次数每秒 | aoss | BucketRequest |
AI 对象存储 | 用户总已用容量 | aoss | UserSummary |
AI 对象存储 | HDD 已用容量 | aoss | UserSummary |
AI 对象存储 | SSD 已用容量 | aoss | UserSummary |
AI 对象存储 | 用户公网流出 | aoss | UserSummary |
AI 对象存储 | 用户公网流入 | aoss | UserSummary |
AI 对象存储 | 用户总流量 | aoss | UserSummary |
AI 对象存储 | 用户读请求数量 | aoss | UserSummary |
AI 对象存储 | 用户写请求数量 | aoss | UserSummary |
AI 对象存储 | 用户读写总请求数量 | aoss | UserSummary |
AI 对象存储 | 用户文件数量 | aoss | UserSummary |
AI 对象存储 | 用户文件碎片数量 | aoss | UserSummary |
AI 对象存储 | 资源包总已用容量 | aoss | PackSummary |
AI 对象存储 | HDD 已用容量 | aoss | PackSummary |
AI 对象存储 | SSD 已用容量 | aoss | PackSummary |
AI 对象存储 | 资源包公网流出 | aoss | PackSummary |
AI 对象存储 | 资源包公网流入 | aoss | PackSummary |
AI 对象存储 | 资源包内网流出 | aoss | PackSummary |
AI 对象存储 | 资源包内网流入 | aoss | PackSummary |
AI 对象存储 | 资源包总流量 | aoss | PackSummary |
AI 对象存储 | 资源包读请求数量 | aoss | PackSummary |
AI 对象存储 | 资源包写请求数量 | aoss | PackSummary |
AI 对象存储 | 资源包读写总请求数量 | aoss | PackSummary |
AI 对象存储 | 资源包文件数量 | aoss | PackSummary |
AI 对象存储 | 资源包文件碎片数量 | aoss | PackSummary |
AI 对象存储 | 资源包总容量 | aoss | PackCapacity |
AI 对象存储 | 资源包总已用容量 | aoss | PackCapacity |
AI 对象存储 | 用户总已用容量 | aoss | PackCapacityUtil |
AI 缓存
Category | Description | Dashboard | Panel |
---|---|---|---|
AI 缓存 | 读操作 IOPS | acs | IOPS |
AI 缓存 | 写操作 IOPS | acs | IOPS |
AI 缓存 | 读操作吞吐 | acs | Throughput |
AI 缓存 | 写操作吞吐 | acs | Throughput |
AI 缓存 | 读源操作吞吐 | acs | Throughput |
AI 缓存 | 写源操作吞吐 | acs | Throughput |
AI 缓存 | 读操作延迟 | acs | Latency |
AI 缓存 | 写操作延迟 | acs | Latency |
AI 缓存 | 缓存命中率 | acs | Summary |
AI 缓存 | 读操作吞吐 | abs | Throughput |
AI 缓存 | 读操作 iops | abs | IOPS |
AI 缓存 | 读操作延迟 | abs | Latency |
AI 缓存 | 写操作吞吐 | abs | Throughput |
AI 缓存 | 写操作 iops | abs | IOPS |
AI 缓存 | 写操作延迟 | abs | Latency |
AI 缓存 | 读操作吞吐(实时) | abs | AbsSummary |
AI 缓存 | 读操作 iops(实时) | abs | AbsSummary |
AI 缓存 | 读操作延迟(实时) | abs | AbsSummary |
AI 缓存 | 写操作吞吐(实时) | abs | AbsSummary |
AI 缓存 | 写操作 iops(实时) | abs | AbsSummary |
AI 缓存 | 写操作延迟(实时) | abs | AbsSummary |
模型推理服务
Category | Description | Dashboard | Panel |
---|---|---|---|
模型推理服务 | QPS | ams | QPS |
模型推理服务 | 调用次数 | ams | HandledNumber |
模型推理服务 | 单 token 耗时 | ams | PerTokenCost |
模型推理服务 | token 吞吐 | ams | TokenThroughput |
模型推理服务 | 首 token 延迟 | ams | FirstTokenCost |
模型推理服务 | cpu 利用率 | ams | CpuUtil |
模型推理服务 | mem 利用率 | ams | MemUtil |
模型推理服务 | mem 使用量 | ams | MemAmount |
模型推理服务 | 显存用量 | ams | GpuMemAmountTotal |
模型推理服务 | 显存利用率 | ams | GpuMemUtilTotal |
模型推理服务 | gpu 利用率 | ams | GpuUtilTotal |
示例
sco cms metrics query --start "2024-03-18 00:12:00" --end "2024-04-18 00:12:00" --step 1000 --resource-id 51ecf827-9573-11ee-b915-7ada102f1017 --telemetryStation ts-user-976f8cd6-73d8-45d7-be48-8ba3b544753c --dashboard acs_summery --panel AcsSourceThroughput
sco cms metrics query --start "2024-03-18 00:12:00" --end "2024-04-18 00:12:00" --step 1000 --resource-id 51ecf827-9573-11ee-b915-7ada102f1017 --resource-id 7f514a12-b43b-11ee-a9e7-7af9e4e0e6e5 --telemetryStation ts-user-976f8cd6-73d8-45d7-be48-8ba3b544753c --dashboard acs_summery --panel AcsSourceThroughput
sco cms metrics query --start "2024-03-18 00:12:00" --end "2024-04-18 00:12:00" --step 1000 --resource-id 51ecf827-9573-11ee-b915-7ada102f1017 --dashboard acs_summery --panel AcsSourceThroughput
sco cms metrics query --start "2024-03-18 00:12:00" --end "2024-04-18 00:12:00" --step 1000 --resource-id 51ecf827-9573-11ee-b915-7ada102f1017 --resource-id 7f514a12-b43b-11ee-a9e7-7af9e4e0e6e5 --dashboard acs_summery --panel AcsSourceThroughput
sco cms metrics query --start "2021-06-13 14:22:37" --end "2024-07-04 00:12:00" --step 86400 --resource-id e4da66a0-2ecb-11ef-924b-6693766ff313 --dashboard acpnew --panel JobGpuMemUtilTotal --metrics-filter "label_acp_lepton_sensetime_com_job_name"="pt-qzobcwzn"
sco cms metrics query --start "2021-06-13 14:22:37" --end "2024-07-04 00:12:00" --step 86400 --resource-id e4da66a0-2ecb-11ef-924b-6693766ff313 --telemetryStation ts-code1030-224bae0c --dashboard acpnew --panel JobGpuMemUtilTotal --metrics-filter "label_acp_lepton_sensetime_com_job_name"="pt-qzobcwzn"
sco cms metrics query --start "2024-07-10 13:28:00" --end "2024-07-10 14:28:00" --step 120 --resource-id a831a4aa-6811-11ee-bc1e-e612694d9db2 --dashboard acpnew --panel WorkerGpuMemUtilTotal --metrics-filter "label_acp_lepton_sensetime_com_job_name"="pt-4vn0sapj" --metrics-filter "gpu"=".*" --metrics-filter "exported_pod"="pt-4vn0sapj-worker-0"