云监控服务 CMS | 大装置帮助中心
跳到主要内容

云监控服务 CMS

产品动态

版本号更新内容发布时间
云监控 v1.23.0云产品监控指标数据导出支持2024-12-30
云监控 v1.22.0日志查询及导出交互升级2024-11-30
云监控 v1.22.0裸金属服务器磁盘维度指标可视化及告警支持2024-11-30

产品介绍

什么是云监控

云监控 CMS(Cloud Monitor Service)是全方位的可观测性平台,为业务的稳定运行保驾护航。

云监控作为企业级开箱即用的监控产品,从基础设施、系统服务和运行任务等多种维度,为SenseCore云产品及业务提供全方位的监控、可视化和灵活告警等功能,助力用户全面了解资源使用情况和业务的运行状况,保障业务持久运行的同时降低运维成本。

云监控服务主要具备以下功能:

  • 云产品监控

无缝对接多种云产品,实时呈现资源健康状态与关键指标。通过可视化能力,助力用户全面掌握资源运行情况,快速发现潜在风险。

  • 自定义监控

提供标准化SDK,轻松对接业务指标。可视化展示核心业务指标,深度解析业务状态,优化运营管理。

  • 监控仪表盘

支持针对不同业务需求创建个性化监控大盘。提供多样化云产品及业务指标展示形式,全面掌握业务全局动态。

  • 灵活告警

支持灵活告警规则,实时监控指标波动。多渠道告警通知(电话、短信、邮件、飞书/钉钉/微信机器人),确保用户第一时间获悉异常。

  • 日志查询

支持业务日志查询,基于特定语法规则高效检索。与监控系统深度整合,实现指标监控与日志分析闭环,提升故障排查效率。

产品优势

云监控源于商汤多年内部经验积累,具备操作简易性、监控体验一致性、指标多样性和告警灵活性。

  • 开箱即用

开通云服务资源即可通过云监控查看所有云产品的指标监控,并配置告警策略,操作简便流程简单。

  • 一站式监控

云监控覆盖SenseCore所有云产品的上百种监控指标,以统一视角查看多种维度指标数据,并根据需求配置告警策略。

  • 灵活告警

支持24小时全天监控和告警,提供灵活的告警规则和多种通知方式,可在资源异常时及时发送通知消息。

应用场景

AI训练护航

无需额外购买监控服务,当云资源用于AI训练任务时,即可同步开启监控与告警配置,实现训练过程全程护航,确保在任务异常或底层资源问题出现时,及时发现并快速恢复。

  • 原生支持各云产品核心指标的监控并提供开箱即用的监控视图
  • 灵活的告警规则配置并提供包含短信、邮件和企微的多种通知方式
  • 不同类型日志信息记录,多种查询方式丰富监控维度

资源运营管理

通过云监控构建资源运营大盘,以高维视角管理动态变化的大规模云资源,结合细分云产品监控视图和告警规则定义,充分了解资源运行情况,实时掌握动态信息。

  • 通过对各云产品核心指标的提取集成,总览资源运行概况
  • 自定义云服务监控大盘支持多服务、多维度的监控数据,集中呈现用户重点关注信息
  • 可配合业务运营需求配置告警策略,通过短信、邮件和企微等方式及时同步资源变化情况

快速入门

云产品监控

云产品监控概览

操作步骤

  1. 登录云监控控制台。
  2. 在左侧导航栏,选择云产品监控 > 云产品监控概览。
  3. 在云产品监控概览页面,点击选择云产品名称切换Tab页面。
  4. 在云产品监控概览列表页面可查看资源规格、创建时间、资源状态和告警规则数等基本信息。
列名含义
资源名称&ID该资源名称&ID
资源规格该资源购买时设定的规格
创建时间该资源的创建时间
资源状态正常:资源实例近期未发生异常告警
提醒:资源实例近24小时触发过告警,已恢复
告警中:资源实例近期未发生异常告警
告警规则数该资源已绑定的告警规则数量

云产品概览

云产品监控图表

操作步骤

  1. 登录云监控控制台。
  2. 在左侧导航栏,选择云产品监控 > 云产品监控图表。
  3. 在云产品监控图表页面,点击选择云产品名称及资源名称。
  4. 在云产品监控图表页面可查看相应资源指标图表。

云产品监控图表

监控仪表盘

操作步骤

  1. 登录云监控控制台。
  2. 在左侧导航栏,选择监控仪表盘。
  3. 在监控仪表盘界面导航栏中,可点击选择切换Tab页面为管理仪表盘实例或模板。
  4. 点击新建仪表盘,通过添加图表来自定义自己的业务仪表盘。

监控仪表盘

创建告警规则

应用场景

您可以通过设置告警规则定义监控指标数据的方式,在数据达到定义的告警规则时触发并发送告警通知。告警服务提供灵活多样的告警策略和及时的消息通知,可在业务发生异常的第一时间得知并快速处理问题。

操作步骤

  1. 登录云监控控制台。
  2. 在左侧导航栏,选择告警服务 > 告警规则。
  3. 在告警规则页面,点击创建告警规则。
  4. 在创建告警规则页面,填写告警规则相关内容。
  5. 点击确认,完成告警规则的创建。
参数类型参数参数说明
基本信息名称告警规则名称,用于标识告警策略。
描述告警规则的自定义描述,说明性信息。
告警对象产品名称云监控可管理的云产品名称。
资源名称告警规则作用的资源范围,可选择一个或多个生效资源。
告警规则指标类型告警策略可选择通过单指标或多指标进行告警策略的设定。
告警模板可直接选择在告警模板模块创建完成的策略模板,无需重复填写告警指标和触发条件等信息,也可选择自定义操作。
告警指标用于触发告警的监控资源指标。
触发条件设置触发告警的监控指标值类型、比较关系、阈值范围和持续周期。当被监控的资源指标达到触发条件时,系统会触发告警消息。
如果指标类型设置为单指标,则仅支持设置一个触发条件。
如果指标类型设置为多指标,则支持设置一个或多个触发条件。可选择所有指标都满足条件触发(&&)或只有一个指标满足条件就触发(
告警等级用于定义告警的严重程度,支持设置紧急、重要、次要、提示。
生效时间告警策略的生效时间。告警策略只在生效时间内监控资源的数据是否达到触发条件。
告警发送周期触发告警策略后,如果被监控的资源仍然持续触发告警,则系统会周期性发送告警通知。
告警方式通知方式选择一个或多个渠道,目前支持电话、短信、邮件及机器人方式。
告警联系组用于定义告警消息触发后需通知的告警联系组,可选择一个或多个接收方。

创建告警规则

查询日志信息

应用场景

您可以在日志服务查询业务日志数据,便于业务发生问题时定位问题根源。

操作步骤

  1. 登录云监控控制台。
  2. 在左侧导航栏,选择日志服务 > 日志查询。
  3. 在日志查询页面选择需查看日志的Workspace实例。
  4. 在日志查询页面选择需查看日志的一级负载。
  5. 点击日期筛选框选择需查看的日志时间范围。
  6. 在搜索框中输入需查看日志的关键字段并确认。
  7. 在列表中查看需查看的业务日志。

日志列表

自定义指标上传

应用场景

您可以通过使用OpenTelemetry SDK上传自定义指标数据

前提条件

在控制台获取鉴权Token和接入点信息 查看监控仓库的令牌信息和接入点endpoint

直接上报

配置(也可以在sdk里面指定)

接入点设置

export OTEL_EXPORTER_OTLP_METRICS_ENDPOINT="https://monitor-internal-ingestion.cn-sh-01.sensecore.cn/v1/telemetry-repos/${telemetry-repo-id}/metric/upload"

token设置

export  OTEL_EXPORTER_OTLP_METRICS_HEADERS="Authorization=Bearer ${token}"
SDK上传(golang)
先决条件

确保您已在本地安装一下软件:

Go 1.22 或更高版本

添加依赖项

安装一下软件包

go.opentelemetry.io/contrib/instrumentation/net/http/otelhttp v0.48.0
go.opentelemetry.io/otel v1.26.0
go.opentelemetry.io/otel/exporters/otlp/otlpmetric/otlpmetrichttp v1.26.0
go.opentelemetry.io/otel/metric v1.26.0
go.opentelemetry.io/otel/sdk v1.26.0
go.opentelemetry.io/otel/sdk/metric v1.26.0
初始化 OpenTelemetry SDK
package main

import (
"context"
"errors"
"go.opentelemetry.io/otel/exporters/otlp/otlpmetric/otlpmetrichttp"
"log"
"sync"
"time"

"go.opentelemetry.io/otel"
"go.opentelemetry.io/otel/propagation"
"go.opentelemetry.io/otel/sdk/metric"
sdkmetric "go.opentelemetry.io/otel/sdk/metric"
sdkresource "go.opentelemetry.io/otel/sdk/resource"
)

// setupOTelSDK bootstraps the OpenTelemetry pipeline.
// If it does not return an error, make sure to call shutdown for proper cleanup.
func setupOTelSDK(ctx context.Context) (shutdown func(context.Context) error, err error) {
var shutdownFuncs []func(context.Context) error

// shutdown calls cleanup functions registered via shutdownFuncs.
// The errors from the calls are joined.
// Each registered cleanup will be invoked once.
shutdown = func(ctx context.Context) error {
var err error
for _, fn := range shutdownFuncs {
err = errors.Join(err, fn(ctx))
}
shutdownFuncs = nil
return err
}

// handleErr calls shutdown for cleanup and makes sure that all errors are returned.
handleErr := func(inErr error) {
err = errors.Join(inErr, shutdown(ctx))
}

// Set up propagator.
prop := newPropagator()
otel.SetTextMapPropagator(prop)

// Set up meter provider.
meterProvider, err := initMeterProvider()
if err != nil {
handleErr(err)
return
}
shutdownFuncs = append(shutdownFuncs, meterProvider.Shutdown)
otel.SetMeterProvider(meterProvider)

return
}

func newPropagator() propagation.TextMapPropagator {
return propagation.NewCompositeTextMapPropagator(
propagation.TraceContext{},
propagation.Baggage{},
)
}

func initMeterProvider() (*sdkmetric.MeterProvider, error) {
ctx := context.Background()

exporter, err := otlpmetrichttp.New(ctx)
if err != nil {
log.Fatalf("new otlp metric grpc exporter failed: %v", err)
}

mp := sdkmetric.NewMeterProvider(
sdkmetric.WithReader(sdkmetric.NewPeriodicReader(exporter, metric.WithInterval(3*time.Second))),
sdkmetric.WithResource(nil),
)

otel.SetMeterProvider(mp)
return mp, nil
}
检测 HTTP 服务器

现在我们已经初始化了 OpenTelemetry SDK,我们可以检测 HTTP 服务器了。

修改main.go以包含设置 OpenTelemetry SDK 和使用otelhttp检测库检测 HTTP 服务器的代码:

package main

import (
"context"
"errors"
"log"
"net"
"net/http"
"os"
"os/signal"
"time"

"go.opentelemetry.io/contrib/instrumentation/net/http/otelhttp"
)

func main() {
if err := run(); err != nil {
log.Fatalln(err)
}
}

func run() (err error) {
// Handle SIGINT (CTRL+C) gracefully.
ctx, stop := signal.NotifyContext(context.Background(), os.Interrupt)
defer stop()

// Set up OpenTelemetry.
otelShutdown, err := setupOTelSDK(ctx)
if err != nil {
return
}
// Handle shutdown properly so nothing leaks.
defer func() {
err = errors.Join(err, otelShutdown(context.Background()))
}()

// Start HTTP server.
srv := &http.Server{
Addr: ":8080",
BaseContext: func(_ net.Listener) context.Context { return ctx },
ReadTimeout: time.Second,
WriteTimeout: 10 * time.Second,
Handler: newHTTPHandler(),
}
srvErr := make(chan error, 1)
go func() {
srvErr <- srv.ListenAndServe()
}()

// Wait for interruption.
select {
case err = <-srvErr:
// Error when starting HTTP server.
return
case <-ctx.Done():
// Wait for first CTRL+C.
// Stop receiving signal notifications as soon as possible.
stop()
}

// When Shutdown is called, ListenAndServe immediately returns ErrServerClosed.
err = srv.Shutdown(context.Background())
return
}

func newHTTPHandler() http.Handler {
mux := http.NewServeMux()

// handleFunc is a replacement for mux.HandleFunc
// which enriches the handler's HTTP instrumentation with the pattern as the http.route.
handleFunc := func(pattern string, handlerFunc func(http.ResponseWriter, *http.Request)) {
// Configure the "http.route" for the HTTP instrumentation.
handler := otelhttp.WithRouteTag(pattern, http.HandlerFunc(handlerFunc))
mux.Handle(pattern, handler)
}

// Register handlers.
handleFunc("/hello", rolldice)

// Add HTTP instrumentation for the whole server.
handler := otelhttp.NewHandler(mux, "/")

return handler
}

添加自定义仪表

检测库可以捕获系统边缘的遥测数据,例如入站和出站 HTTP 请求,但它们无法捕获应用程序中正在发生的事情。为此,您需要编写一些自定义 手动检测。

修改rolldice.go以包含使用 OpenTelemetry API 的自定义检测:

package main

import (
"context"
"io"
"log"
"math/rand"
"net/http"
"strconv"

"go.opentelemetry.io/otel/metric"

"go.opentelemetry.io/otel"
"go.opentelemetry.io/otel/attribute"
)

var (
meter = otel.Meter("test001")
rollCnt metric.Int64Counter
)

func init() {
var err error
rollCnt, err = meter.Int64Counter("test001.xx",
metric.WithDescription("The number of rolls by roll value"),
metric.WithUnit("{roll}"))
if err != nil {
panic(err)
}
}

func rolldice(w http.ResponseWriter, r *http.Request) {
roll := 1 + rand.Intn(6)

rollValueAttr := attribute.Int("roll.value", roll)
rollCnt.Add(context.Background(), 1, metric.WithAttributes(rollValueAttr))

resp := strconv.Itoa(roll) + "\n"
if _, err := io.WriteString(w, resp); err != nil {
log.Printf("Write failed: %v\n", err)
}
}

操作指南

自定义监控

查看监控仓库列表

应用场景

您可以通过监控仓库列表,查看监控仓库相关的信息。

操作步骤

  1. 登录云监控控制台。
  2. 在左侧导航栏,选择自定义监控 > 监控仓库。
  3. 在监控仓库页面,可以看到所有监控仓库及相关信息。

监控仓库列表

查看监控仓库的令牌信息和接入点endpoint

应用场景

上报自定义监控指标,需要您先获取对应监控仓库的令牌及endpoint信息。

操作步骤

  1. 登录云监控控制台。
  2. 在左侧导航栏,选择自定义监控 > 监控仓库。
  3. 在监控仓库页面,点击监控仓库对应操作列的按钮进行数据推送信息获取。

监控仓库数据推送

创建监控仓库

应用场景

上报自定义监控指标数据前,您需要创建监控仓库对于这些指标进行管理。

操作步骤

  1. 登录云监控控制台。
  2. 在左侧导航栏,选择自定义监控 > 监控仓库。
  3. 在监控仓库页面,点击创建监控仓库。
  4. 在创建监控仓库页面,填写监控仓库相关参数。
  5. 点击确认,完成监控仓库的创建。

创建监控仓库

删除监控仓库

应用场景

当您不在需要某条监控仓库时可将其删除,近一周有数据上报的监控仓库无法删除。

操作步骤

  1. 登录云监控控制台。
  2. 在左侧导航栏,选择自定义监控 > 监控仓库。
  3. 在监控仓库页面,点击监控仓库对应操作列的按钮进行删除。

自定义监控图表

操作步骤

  1. 登录云监控控制台。
  2. 在左侧导航栏,选择自定义监控 > 监控图表。
  3. 在自定义监控图表页面,点击选择监控仓库名称并输入指标查询表达式。
  4. 点击查询,可以看到相应指标图表数据。

自定义监控图表

告警列表

查看告警历史消息

应用场景

用户可以查看历史触发告警的资源信息、告警规则、开始时间等信息,便于用户在需要时回溯和查看告警记录。

操作步骤

  1. 登录云监控控制台。
  2. 在左侧导航栏,选择告警服务 > 告警历史。
  3. 在告警历史页面选择需查看告警消息的云产品名称。
  4. 点击日期筛选框选择需查看的告警消息时间范围。
  5. 告警历史列表中的各项含义如下:
列名含义
告警产品触发本条告警消息的云产品名称
告警资源(ID&名称)触发告警的资源名称
告警等级告警消息的严重程度
规则(ID&名称)告警规则的名称
开始时间触发告警消息后产生本条告警的时间
告警状态该条告警消息的状态,分为以下四种状态
• 告警中:还处于触发阈值,同步显示在正在告警列表
• 正常:未处于触发阈值,已恢复
• 数据不足:连续三个小时未有监控数据上报
• 已禁用:告警规则被关闭时显示已禁用
告警联系组告警消息的通知联系组名称

历史告警列表

查看正在告警消息

应用场景

用户可以实时查看正在触发告警的资源信息、告警规则、开始时间和持续时间等信息。

操作步骤

  1. 登录云监控控制台。
  2. 在左侧导航栏,选择告警服务 > 正在告警。
  3. 在正在告警页面选择需查看告警消息的云产品名称。
  4. 正在告警列表中的各项含义如下:
列名含义
告警产品触发本条告警消息的云产品名称
告警资源(ID&名称)触发告警的资源名称
告警等级告警消息的严重程度
规则(ID&名称)告警规则的名称
告警策略触发告警规则的策略内容
开始时间触发告警消息后产生本条告警的时间
持续时间触发告警消息后至今的持续时间

正在告警列表

告警规则

查看告警规则

应用场景

您可以通过云监控中的告警规则查看已有的告警规则和详细信息。

操作步骤

  1. 登录云监控控制台。
  2. 在左侧导航栏,选择告警服务 > 告警规则。
  3. 在告警规则页面可以查看指定告警规则的详细信息,告警规则列表中的各项含义如下:
列名含义
规则名称(ID&名称)告警规则的名称
告警产品告警规则关联的云产品名称
告警资源(ID&名称)触发告警的资源名称
告警策略触发告警规则的策略内容
告警状态该条告警规则的状态,分为启用和禁用
告警联系组该条告警规则需通知的告警联系组,在告警通知处定义

告警规则列表

修改告警规则

应用场景

您可以在告警规则详情查看规则的详细信息,并对规则名称、告警策略和告警联系组等信息进行修改。

操作步骤

  1. 登录云监控控制台。
  2. 在左侧导航栏,选择告警服务 > 告警规则。
  3. 查看告警详细信息,并点击信息旁的编辑按钮进行修改。
  4. 重新填写告警规则相关内容,确认无误后点击保存完成修改。

启用告警规则

应用场景

启用告警规则后告警系统会开始监控指标数据,并根据告警策略触发告警消息。

操作步骤

  1. 登录云监控控制台。
  2. 在左侧导航栏,选择告警服务 > 告警规则。
  3. 在告警规则页面,点击告警规则对应告警状态列的按钮进行启用。
  4. 若需对多条告警规则进行批量操作,可选择多个需要启用的告警规则,并点击列表上方的开启按钮。

禁用告警规则

应用场景

禁用告警规则后告警系统会停止监控指标数据,您可以按需禁用告警规则以便灵活控制告警消息的触发。

操作步骤

  1. 登录云监控控制台。
  2. 在左侧导航栏,选择告警服务 > 告警规则。
  3. 在告警规则页面,点击告警规则对应告警状态列的按钮进行禁用。
  4. 若需对多条告警规则进行批量操作,可选择多个需要禁用的告警规则,并点击列表上方的禁用按钮。

删除告警规则

应用场景

当您不在需要某条告警规则时可将其删除,告警系统将不再根据告警规则对指标进行监控触发告警。

操作步骤

  1. 登录云监控控制台。
  2. 在左侧导航栏,选择告警服务 > 告警规则。
  3. 在告警规则页面,点击告警规则对应操作列的按钮进行删除。
  4. 若需对多条告警规则进行批量操作,可选择多个需要删除的告警规则,并点击列表上方的删除按钮。

告警模板

查看告警模板

应用场景

您可以通过云监控中的告警模板查看已有的告警模板和详细信息。

操作步骤

  1. 登录云监控控制台。
  2. 在左侧导航栏,选择告警服务 > 告警模板。
  3. 在告警模板页面可以查看指定告警模板的详细信息,告警模板列表中的各项含义如下:
列名含义
模板名称(ID&名称)告警模板的名称和唯一ID
适用产品该告警模板所关联的云产品
模板策略触发告警规则的策略内容
绑定告警规则数该告警模板已被绑定的告警规则数量,已被绑定告警规则的模板不可被删除

告警模板列表

创建告警模板

应用场景

当您拥有大量云资源时,为了避免重复定义负责的告警规则策略,可以使用告警模板功能,在创建或者修改告警规则时直接引用模板。

操作步骤

  1. 登录云监控控制台。
  2. 在左侧导航栏,选择告警服务 > 告警模板。
  3. 在告警模板页面,点击创建告警模板。
  4. 在创建告警模板页面,填写告警模板相关参数。
  5. 点击确认,完成告警模板的创建。
参数类型参数参数说明
基本信息名称告警模板名称,用于标识告警模板。
描述告警模板的自定义描述,说明性信息。
告警对象产品名称云监控可管理的云产品名称。
告警规则指标类型告警策略可选择通过单指标或多指标进行告警策略的设定。
告警指标用于触发告警的监控资源指标。
触发条件设置触发告警的监控指标值类型、比较关系、阈值范围和持续周期。当被监控的资源指标达到触发条件时,系统会触发告警消息。
如果指标类型设置为单指标,则仅支持设置一个触发条件。
如果指标类型设置为多指标,则支持设置一个或多个触发条件。可选择所有指标都满足条件触发(&&)或只有一个指标满足条件就触发(
告警等级用于定义告警的严重程度,支持设置紧急、重要、次要、提示。
告警方式通知方式选择一个或多个渠道,目前支持电话、短信、邮箱、机器人等方式。

创建告警模板

修改告警模板

应用场景

您可以在告警模板详情查看模板的详细信息,并对于模板名称、告警策略等信息进行修改。

操作步骤

  1. 登录云监控控制台。
  2. 在左侧导航栏,选择告警服务 > 告警模板。
  3. 查看模板详细信息,并点击信息旁的编辑按钮进行修改。
  4. 重新填写告警模板相关内容,确认无误后点击保存完成修改。

删除告警模板

应用场景

当您不在需要某条告警模板时可将其删除,关联告警规则的告警模板无法删除。

操作步骤

  1. 登录云监控控制台。
  2. 在左侧导航栏,选择告警服务 > 告警模板。
  3. 在告警模板页面,点击告警模板对应操作列的按钮进行删除。

告警通知

告警通知组列表

应用场景

您可以通过云监控中的告警通知查看已有的告警通知组和详细信息。

操作步骤

  1. 登录云监控控制台。
  2. 在左侧导航栏,选择告警服务 > 告警通知。
  3. 在告警通知页面可以查看指定告警通知组的详细信息。

告警通知组列表

创建告警通知组

应用场景

您可以创建告警通知组,并与告警规则关联,告警触发时会给您填写的IAM用户或机器人发送通知。

操作步骤

  1. 登录云监控控制台。
  2. 在左侧导航栏,选择告警服务 > 告警通知。
  3. 在告警通知页面,点击创建告警通知组。
  4. 在创建告警通知组页面,填写告警通知组相关参数。
  5. 点击确认,完成告警通知组的创建。
参数参数说明
通知组名称告警通知组名称,用于标识告警通知组。
通知方式选择一种或多种通知方式,填写相应的接收用户信息或机器人信息

创建告警通知组

编辑告警通知组

应用场景

您可以对于告警通知组的通知方式等信息进行修改。

操作步骤

  1. 登录云监控控制台。
  2. 在左侧导航栏,选择告警服务 > 告警通知。
  3. 在告警通知页面,点击告警通知对应操作列的按钮进行修改。
  4. 重新填写告警通知组的通知方式,确认无误后点击保存完成修改。

删除告警通知组

应用场景

当您不在需要某条告警通知组时可将其删除,关联告警规则的告警通知组无法删除。

操作步骤

  1. 登录云监控控制台。
  2. 在左侧导航栏,选择告警服务 > 告警通知。
  3. 在告警通知页面,点击告警通知对应操作列的按钮进行删除。

日志服务

日志查询

应用场景

您可以在日志服务查询业务日志数据,便于业务发生问题时定位问题根源。

针对高性能算力池ACP及云容器实例CCI产品的日志查询,提供一级负载(Job)、二级负载(Worker)、三级负载(Container)的筛选项。

同时,日志告警等级筛选时,可筛选出训练任务的通用训练框架Pytorch、Tensorflow的标准训练日志等级信息。分为以下六级:

  1. Trace:跟踪级别的日志用于输出最详细的调试信息,包括一些非常细微的操作和状态信息。这些日志通常在开发和调试过程中使用,对于正常运行的系统来说,这些信息并不是必需的。
  2. DEBUG:用于输出调试信息的日志级别,通常用于开发和调试过程中。 
  3. INFO:用于输出一般信息的日志级别,提供一些运行时的状态和提示。 
  4. WARNING:用于输出警告信息的日志级别,表示一些可能的问题或潜在的错误。 
  5. ERROR:用于输出错误信息的日志级别,表示一些严重的错误或异常情况。 
  6. FATAL:用于输出严重错误信息的日志级别,表示一些非常严重的错误或紧急情况,会导致程序中断。

操作步骤

  1. 登录云监控控制台。
  2. 在左侧导航栏,选择日志服务 > 日志查询。
  3. 在日志查询页面选择需查看日志的Workspace实例。
  4. 在日志查询页面选择需查看日志的一级负载。
  5. 点击日期筛选框选择需查看的日志时间范围。
  6. 在搜索框中输入需查看日志的关键字段并确认。
  7. 在列表中查看需查看的业务日志。

日志列表

日志上下文

应用场景

您可以在查询日志界面跳转某一条日志的日志上下文界面,高信息密度地查看该条日志的上下文原始日志内容,助力定位根因。

操作步骤

  1. 登录云监控控制台。
  2. 在左侧导航栏,选择日志服务 > 日志查询。
  3. 在日志查询页面选择需查看日志的Workspace实例。
  4. 在日志查询页面选择需查看日志的一级负载。
  5. 点击日期筛选框选择需查看的日志时间范围。
  6. 在搜索框中输入需查看日志的关键字段并确认。
  7. 在列表中查看需查看的业务日志。
  8. 当鼠标悬浮在日志条目上时,在日志条目的最右侧,会浮现跳转按钮。
  9. 点击跳转按钮,可以进入查询日志上下文界面。

上下文入口

日志上下文

日志下载

应用场景

云监控日志服务提供了日志下载的功能,该功能支持将业务日志数据下载至本地,方便用户进行深度分析与离线处理。

操作步骤

  1. 登录云监控控制台。
  2. 在左侧导航栏,选择日志服务 > 日志查询。
  3. 在日志查询页面选择需下载日志的Workspace实例。
  4. 在日志查询页面选择需下载日志的一级负载。
  5. 点击日期筛选框选择需下载日志的时间范围。
  6. 点击查询,加载相应的日志数据。
  7. 点击下载到本地-下载到本地。
  8. 选择日志格式、文件格式及日志时间顺序。
  9. 点击创建日志下载任务。

创建日志下载任务

  1. 待日志状态为“已完成”,点击下载按钮将日志下载到本地。

日志下载历史

日志转存AOSS

应用场景

云监控日志服务提供了日志转存的功能,该功能支持将业务日志数据转存到用户的对象存储,以便对日志数据进行持久化存储。

操作步骤

  1. 登录云监控控制台。
  2. 在左侧导航栏,选择日志服务 > 日志查询。
  3. 在日志查询页面选择需转存日志的Workspace实例。
  4. 在日志查询页面选择需转存日志的一级负载。
  5. 点击日期筛选框选择需转存的日志时间范围。
  6. 点击查询,加载相应的日志列表。
  7. 点击转存到AOSS-转存到AOSS。
  8. 输入目标对象存储桶URL、访问秘钥ID、访问秘钥Secret及转存目录,并选择日志格式、文件格式及日志时间排序导出顺序。
  9. 点击创建日志转存任务。

创建日志转存任务

  1. 从日志转存历史中查询日志转存状态。

日志转存任务列表

日志转存

日志转存任务查看

应用场景

您可以通过转存任务列表监控任务状态,并获取其他您关心的信息。

操作步骤

  1. 登录云监控控制台。
  2. 在左侧导航栏,选择日志服务 > 日志转存。
  3. 在日志转存页面,您可以看到所有日志转存任务及相关信息。

创建日志转存任务

应用场景

您可以创建日志转存任务,持将业务日志数据批量转存到对象存储桶,以便对日志数据进行持久化存储及其他用途。

操作步骤

  1. 登录云监控控制台。
  2. 在左侧导航栏,选择日志服务 > 日志转存。
  3. 在日志转存页面点击创建转存任务。
  4. 输入转存任务名称、产品名称、时间范围、目标对象存储桶URL、访问秘钥ID、访问秘钥Secret等信息。
  5. 点击创建日志转存任务。

日志批量转存

  1. 从日志转存列表中查询日志转存状态。

如何获取对象存储桶相关信息Tips

  1. 进入目标对象存储桶管理页面,复制“存储桶域名信息(外⽹访问)”

对象存储桶管理页面

  1. 进入AccessKey访问密钥管理页面,创建访问秘钥,复制Access key ID及Access key Secret。

访问秘钥管理

操作日志

应用场景

您可以在日志服务查询云产品资源的操作日志,便于用户在发现资源发生不知名变更或者其他问题的时候进行追溯和排查。

操作步骤

  1. 登录云监控控制台。
  2. 在左侧导航栏,选择日志服务 > 操作日志。
  3. 在操作日志页面可以查看操作日志的详细信息,各项含义如下:
列名含义
时间操作发生的具体时间
资源类型操作针对的资源类型
资源名称&ID操作针对的具体资源名称&ID
操作名称针对资源进行的具体操作行为名称
操作人发起此操作的用户名称
详情点击可查看该操作的具体日志信息

操作历史列表