什么是云监控?

腾讯云监控为用户提供了统一的平台,监控着云服务器、数据库产品等所有原产品。提供云监控可以全面连接云产品的健康状态。同时它还支持自定义指定监控、自定义告警、可视化Dashboard等功能。云监控可收集并通过图表展示腾讯云云产品自助上报的各项监控指标和用户自定义配制上报的监控指标,以及针对指标设置告警。为您提供立体化云产品数据监控、智能化数据分析、实时化异常告警和个性化数据报表配置,让您实时、精准掌控业务和各个云产品健康状况。

监控的重要意义

  • 问题发生前,提前预警将要发生的问题
  • 问题发生过程中,能够快速定位的问题的发生位置
  • 问题发生过后,能够为复盘提供重要数据的依据

服务器监控的数据:



云监控的基本概念

指标

指标是云监控的核心概念,表示一个向云监控发送的按时间排序的数据点集合,您可以按时间序列来检索关于这些数据点的统计数据。指标作为监控的变量,指标数据代表该变量随时间变化的值。例如,云服务器的 CPU 利用率是一个指标,云数据库的空间占用率则是另一个指标。

指标数据可以来自任何产品、应用程序或业务。例如,指标可以是云服务器的 CPU 利用率或是用户业务的进程延时。指标通过名称、命名空间以及一个或多个维度进行唯一定义。每个数据点都有一个时间戳和一个度量单位(可选)。对云监控存储的指标数据发起请求时,返回的数据流通过命名空间、指标名称和维度进行识别。

命名空间

命名空间是指标的容器。不同命名空间中的指标彼此独立,因此来自不同应用程序的指标不会被错误地聚合到一起。

维度

维度是对监控对象进行唯一标识的 Key/Value 对,指标在确定维度值后才有意义。维度有助于设计统计数据聚合结构。例如,机器 IP、进程名 proc_name,两个维度值确定后,即可确定一个监控对象:监控对象 A(IP=1.1.1.1&proc_name=test)。
您需要在将云产品指标数据放入云监控时,指定相应维度(系统预设的指标均已预设了相应的维度),在检索时使用没有定义的维度会出现错误。

时间戳

在云监控中每个指标数据点必须有一个时间标记,表示此原始数据采集的时间。在请求中使用的时间戳必须为 dateTime 对象,并包含完整的日期及小时、分钟和秒,例如 2000-01-31 23:59:59,建议您以北京时间(东八时区)提供时间戳。

单位

单位是指标原始数据的度量单位,应用程序根据数据单位得到有用的语法信息。例如,CVM的外网出方向带宽指标的单位是 Mbps,因为网络带宽常以兆比特每秒(Mbps)来衡量当前网络速度。下方列表提供了一些云监控支持的常见单位:

单位 含义
时间单位
Byte 字节,常表示数据大小。 1Byte=8bit
bit 比特,数据的最小单位
% 百分比
计数单位
Bps 每秒字节数
bps 每秒比特数

时间粒度

时间粒度是云监控统计数据的间隔时间长度,每个时间戳数据代表根据指定粒度对收集的所有数据进行聚合的结果。时间粒度以秒表示,目前云监控支持了10、60、300秒等监控时间粒度。
用户调用云监控 API 时,可以通过 period 参数指定时间粒度。调用 GetMonitorData接口 获取监控数据时,period、startTime 和 endTime 参数的值决定了将会返回的数据数量。例如,以所有参数的默认值调用时会返回前一小时内每300秒的统计数据,即总共12个数据点。时间粒度同样是告警功能的重要组成部分。当用户创建告警触发条件时,需设定告警规则触发的时间粒度与持续周期,不同粒度与持续周期的选择代表告警判定的时长差异。

告警

告警管理是腾讯云给用户的监控告警服务中的一项功能,对云资源的异常情况进行告警,并提供告警信息查看、告警自定义阈值和告警订阅。根据您自定义阈值每隔若干个时间检查,若达到告警触发条件,则马上为您发起通知。

告警策略类型

告警策略类型用于标识策略分类,类型与云产品对应。例如:当您选择云服务器策略,即可自定义 CPU 使用率、磁盘使用率等指标告警。

告警策略

告警策略是一系列告警触发条件的集合。告警策略和项目、告警策略类型关联,每类告警策略类型每个项目最多创建15条告警策略。

告警策略包含告警触发条件、告警对象、告警接收组。配置完成后,探测到告警后会按照用户设置的告警发送策略给用户通过短信、邮件等渠道发送告警信息。

告警接收组

告警接收组可以包含一个或多个用户。在告警设置中,均通过“告警接收组”发送告警通知。每一个告警策略,根据预先设定的告警接受组在到达告警阈值时向告警组用户发送通知。用户信息和告警接收方式在用户中心,权限设置添加。

告警接收方式

异常发生时通知用户的方式。包括短信、邮件等。

告警规则

指用户为某指标设定告警触发条件,以及监控数据满足告警触发条件时执行的动作。

告警触发条件

指标、比较关系、阈值、统计粒度和持续周期组成的一个有语义的条件。



云监控的特性


自动开通
云监控无需您特意购买和开通,拥有腾讯云账户便自动开通了云监控服务,您在购买和使用腾讯云产品后可直接到云监控控制台查看产品运行状态并设置告警
产品的优势

秒级监控
秒级采集覆盖所有指标数据,感受最细粒度的指标变化,提供精细的云产品监控体验。云监控对秒级监控数据提供24小时免费存储,支持在线查看和数据下载

精准告警
支持对监控指标的自定义触发规则设置,通过指标阈值、统计周期、持续周期、告警频次等多维度设置,精准告警;支持邮件、短信、微信、电话等的告警渠道,快速精准发送告警消息。

一站式监控
云监控是支持基础监控、网络监控、自定义监控的一站式监控平台。基础监控涵盖云产品所有关键指标;云拨测对您的网站、域名、后台接口等进行周期性监控;自定义监控支持对业务数据可视化展示和异常告警。

可视化
云监控提供自定义监控面板服务,您可以将同一业务或集群下的资源集中进行盯屏展示;适用于多种监控场景的跨实例汇聚 / 明细数据、实时 / 历史数据展示、相似指标对比展示、图表联动等灵活个性化的视图功能。

高效运维
实例分组、触发条件模板等功能帮助您提升运维效率,高效运维。实例分组支持对实例进行分组,便于统一管理、设置告警策略;对触发条件模板设置的告警规则能一键复用于告警的触发条件设定上,使您能批量对告警规则作出统一快速的设置、修改。
 
云监控的功能
全方位指标监控

腾讯云监控为您提供云服务器、云数据库、云缓存 Memcached 表空间等多个云产品的负载和性能监控指标,云服务器基础指标需安装监控 agent 进行数据上报,其他基础指标腾讯云将为您自助上报,无需您做任何操作。您可登录腾讯云监控控制台或通过 API 接口方式查看指标监控数据,全方位满足您对指标监控的所有需求。


自定义监控

通过自定义监控的简易自助上报监控数据入口,配置指标内容,上报指标数据。上报后的数据,自定义监控提供强大的后端数据统计处理能力,免费帮您保存一段时间数据。使用丰富的图表展现形式,既支持单实例查看图表、多天对比趋势,还支持聚合维度查看图表。同时还支持异常告警通知,指标异常第一时间自动发现、告警通知,帮您时刻监控业务。


异常告警通知

腾讯云监控支持多种产品告警策略配置,您可自定义指标告警触发规则、告警监控对象、告警通知接收人以及发送渠道。针对云服务器,腾讯云监控提供了默认告警策略,设置默认策略后,新购买云服务器将自动关联至默认告警策略,无需您手动绑定,极大地简化您的操作步骤,实时帮您监控所有云产品状况。


可视化图表分析

腾讯云监控为您提供丰富的图表表现形式,承载大量数据信息,将关联性数据信息整合展示,助您分析。支持单个指标多实例以列表形式查看数据,方便您快速找出最大值、最小值;支持单个实例多指标查看数据,帮您找出实例异常指标;支持单实例对比查看两个区间多天数据,方便您逐步排查问题,分析原因,图形化展示数据助您挖掘业务信息。




云监控的使用限制


功能限制
功能 模块 相关限制
Dashboard 监控面板 监控面板默认最大限制为30个。如需增量请 提交工单申请。
监控图表 监控图表默认最多可展示50个实例监控数据。如需增量请 提交工单 申请。
告警 告警策略 每种策略类型、每个项目:300个(无法更改此配额)。
默认策略 每种策略类型、每个项目仅有一个默认策略(无法更改此配额)。
短信配额 告警短信分为四类:基础告警、云拨测告警、自定义消息、自定义监控告警。
每一类告警短信配额分开独立计数,每种类型、每用户、每月为1000条,每月1号重置为1000条。
如需增量请参见 购买告警短信服务。
告警历史 告警历史信息保存时长上限为半年 ,详情请参见 监控数据存储时长。
实例分组 实例分组 每个实例分组最多可以包含2000个实例,单次往实例分组中添加实例上限为200个(无法更改此配额)。
事件中心 事件信息 事件信息保存时长上限为半年,详情请参见 监控数据存储时长。

监控数据存储时长

目前云监控数据的最长保留时间为半年,只支持半年内的监控数据查询。

监控粒度 存储时长
秒级 1天
1分钟 15天
5分钟 31天
1小时 93天
1天 186天


应用场景


日常巡检

日常管理云产品,掌握云产品运行状态。直接登录控制台,即可方便的查看各个云产品的各项指标监控数据,掌握云产品运行状态。

1.通过 Dashboard 查看重点资源情况,对跨产品跨实例的自定义关键指标进行盯屏监控,可通过 Dashboard 查看跨实例汇聚数据、实时/历史数据、相似指标对比等监控数据。
2.通过云产品监控,查看资源监控详情,感知云产品最细粒度的监控指标变化。可通过云产品监控查看账号下的云资源列表以及对应的监控与告警详情,并快速定位异常实例,结合具体数据与异常信息排查问题。


企业运维

管理大量实例,快速提高运维效率。面对企业级大量实例场景,使用实例分组、触发条件模板等功能,高效管理实例。
1.可将跨地域、跨项目组中的实例按需求分组,批量管理分组中的实例,设置告警策略,减轻运维负担。

2.利用触发条件模板对特定云产品设置告警规则,该触发条件模板的告警规则能一键复用于告警策略的触发条件设置上,避免相同告警规则的重复设置,对触发条件模板告警规则的修改,将会应用到所有该模板绑定的告警策略组上。


业务监控

业务数据上报,自动分析计算,可视化展示。通过自定义监控接口上报业务数据,时刻监控业务。

1.使用自定义监控自助上传业务数据、简易配置指标内容,自定义监控提供强大的后端数据统计处理能力,使用丰富图表展示,支持单例查看图表、多天对比趋势和聚合维度查看图表。对关键指标设置异常告警,指标异常时将在第一时间自动通知。


  

  

粤ICP备2021087867号-1