2024年4月6日发(作者:)
云监控/使用手册
使用手册
产品介绍
云监控简介
云监控作为云服务的监控管理入口,能让您快速了解各产品实例的状态和性能。云监控从站点监控、云服务监
控、自定义监控三个方面来为您提供服务。通过云监控管理控制台,您可以看到当前服务的监控项数据图表
,清晰了解服务运行情况。并通过设置报警规则,管理监控项状态,及时获取异常信息。
如果您已经开通了阿里云相关产品(ECS云服务器、RDS关系型数据库等),那么您可以直接登录云监控控制
台,查看相关实例的监控状态(ECS需要一键安装云盾插件)。目前我们为您提供8种云服务监控,其他云服务
监控近期也将接入云监控,敬请期待。
如果您需要了解自己的站点可用性和响应时间,可以开启云监控站点服务来获取站点的可用性和响应时间。站
点监测既可以监测ECS服务器上的站点,也可以监测非阿里云服务器上的站点。在站点监测栏中添加监测站点
,并选择需要的监控项,便可成功开启站点监测功能。
如果云服务监测和站点监测依然满足不了您的监控需求,您还可以安装云监控SDK,自定义监控项。自定义监
控项信息同样可以以图表的形式展示在云监控控制台。我们为您提供了详细的自定义使用文档
获取监控信息分为两种方式,登录云监控管理控制台直接查看信息和调用OpenAPI获取监控数据信息。
云监控控制台模块包括一下
模块
概览
站点监控
能力
云监控总览页
监控用户站点可用性
主要功能
提供产品的
http、ping、tcp、udp、
dns、pop、smtp、ftp站点的
状态和响应时间
ECS的CPU使用率,内存使用率
,系统负载,磁盘,磁盘读,磁
盘写,入流量,出流量
,TCP,进程总数,进程状态
客户根据模板自定义监控项,主
动上报监控数据
添加报警联系人,并可以对报警
联系人分组
云服务监控监控云服务
自定义监控
报警联系人
监控客户自定义的监控项
管理报警人和报警组
名词解释
1
云监控/使用手册
名词解释
这些名词是云监控的关键概念。
【监控项】: 用户设置或者系统默认的监控数据类型,例如站点监控的Http监控默认有两个监控项
seTime & 。ECS的监控项有CPU利用率、内存利用率等等。
【监控点】: 监控项的一个实例。如针对这个站点的http监控,实际包含两个监控点
se & 。对于ECS云主机有11个监控项,所以一台云主机默认有11个监控点。
【维度】: 定位监控项数据位置的维度,例如磁盘IO这个监控项,通过实例和磁盘名称两个维度可以定位到唯
一的监控点位置。 在自定义监控中,目前维度用“字段信息表示”。
【规则】: 规则是一个条件; 例如“CPU使用率>=50%”是一个规则; 10台ECS服务器中有7台可用也是一
个规则,“可用服务器比例>=70%”。
【事件】: (本版本中“事件”是隐性的,没有展现给使用者) 当一个监控点上,规则条件满足时,产生一个
事件。例如CPU使用率达到60%,满足“CPU使用率>=50%”这一规则的条件,则产生一个事件。 多个事件
满足一个规则的条件,可以产生一个新的事件。例如站点监控由两个探测点,只有一个探测点探测到目标站点
不可用,不满足“不可用探测=2”规则,不产生“双探测不可用”事件,不会触发报警。只有两个探测点同时
探测某一站点不可用,产生一个“双探测不可用”事件,进而触发报警。
【事件级别】:(本版本中“事件级别”没有展现给使用者) 事件的影响分级。 可以通过严重程度来划分,不
同的级别报警通道不同。 可以通过已知处理方法和未知处理方法来划分,已知处理方法的时间可以自动处理
,未知处理方法的通知联系人人工处理。
【报警】: 由事件驱动的一个通知动作,通过特定形式通知报警联系人或服务。
【报警联系人】: 报警消息的接收人,包含手机、旺旺(淘宝)、邮件。
【报警组】: 一组报警联系人,可以包含一个或多个“报警联系人”。在报警设置中,均通过“报警组”发送
报警通知。对应每一个监控点,根据预先设定的报警方式在到达报警阈值时向报警组成员发送报警消息。
【报警方式】: 异常通知用户的手段。包括短信、旺旺、邮件等。
快速上手
快速开始
快速开始
当您进入云监控控制台后,您会看到在页面的顶端看到 概览,站点监控,云服务监控,自定义监控,报警联系
人,5个页面信息
初次使用,您可以先浏览一下名词解释,对云监控产品的一些关键概念的术语有所了解。
初次使用,请您先进入报警联系人 输入您的报警联系人和报警组信息,后面定义报警规则的时候会用到。
然后,您可以进入站点监控,为您需要监控的站点新建监控项。 进入云服务监控,查看您已开通的云服务的使
2
云监控/使用手册
用情况和运行状态。 您还可以通过自定义监控,自行上报数据,设置监控项。
目前云监控支持查看三十天内的历史监控数据,不支持数据导出功能。如果您需要查看更长时间的历史数据或
导出数据,可使用OpenAPI功能,获取监控数据并存储。
概览
概览
目前云监控提供站点监控、云服务监控和自定义监控三种服务。
云监控概览页如下图所示,目前云服务监控提供8种服务监控,随后将会有更多云服务监控。您购买一个云服务
实例后,云监控便默认开启了监控服务,您可以到云监控对应的服务页面查看实例的监控信息,并对其设置相
应的报警规则。
概览页名词解释
q
监控项:自定义监控的监控项数量,自定义监控是没有显性监控点概念,自定义监控的靠维度(字段
信息)来定位监控点
监控点:站点监控的监控点和云服务监控ECS监控点数量
实例数量 云产品受监控的实例个数
报警规则:通过设置报警规则,当监控项超出报警阈值和重试次数后,会触发告警通知
报警:目前处于报警状态的监控项
数据不足:该监控点没有足够数据上报,无法判断被监控的站点或者服务的状态
暂停:用户保留该监控,但是暂停该监控项或者监控点数据上报,暂停状态属于正常状态。不再触发
报警规则
q
q
q
q
q
q
注意 :您只有设置了报警规则以后,才会在监控项触发报警规则时收到报警信息。否则无论监控项数据发生何
种变化,您都只能自行查看,无法收到报警信息。
站点监控
站点监控
站点监控可以对目标站点服务的可用性以及响应时间进行监控。系统已经默认预置了8种监控类型,包括http监
3
云监控/使用手册
控、ping监控、tcp监控、udp监控、DNS监控、pop监控、smtp监控、ftp监控。其中每种监控类型里面包含
了两个监控项:status和responsetime。
每个用户最多可以设置200个站点监控。
从2015年7月9日起,使用站点监测功能需进行云监控产品服务认证,未认证用户无法新建监测站点
点击进行认证 点击认证帮助
1 监控类型
监控类型
HTTP监控
简介
监控Web站点中任何指定的URL,获得可用性监控
以及响应时间,以及HTTP返回内容是否可以匹配
指定的内容
对指定的服务器进行ICMP Ping检测,获得可用性
监控以及响应时间、丢包率等
监控服务器TCP端口的可用性和响应时间
监控服务器UDP端口的可用性和响应时间
监控域名的可用性和响应时间,并获得各种域名记
录列表,支持域名轮询(RR)
监控POP3服务器的可用性和响应时间
监控SMTP服务器的可用性和响应时间
监控FTP服务器的可用性和响应时间
Ping监控
TCP端口监控
UDP端口监控
DNS监控
POP3监控
SMTP监控
FTP监控
2 创建站点监控和报警
点击站点管理,进入站点监控页面
点击创建站点,添加新的监测点
4
云监控/使用手册
创建监控点 表单描述
1) 监控点名称: 为您的监控点输入个性化的名称
2) 监控地址: 您要监控的地址,对http来说,就是一个网站的地地址,对域名解析来说,就是某一个域名等等
。
3) 监测频率: 站点监控探测引擎多长时间执行一次探测任务,并上报数据的频率。默认为5分钟,请谨慎选择
1分钟,过于频繁的探测可能会导致对方服务屏蔽您的账号。
4) 分布式探测点 目前部署了两个监测点,可以分别从杭州和青岛对您设置的目标服务进行监测,您也可以只选
择从其中一个监测点进行探测。(后续会支持更多监测点,包括海外的监测点)
5) 高级设置
不同的监控类型会有一些高级选项
a. http监控:
i. 请求方法,http标准的请求方法,getposthead,其中post支持提交内容。
ii. 提交内容,只对post请求方法有效,输入您的目标服务能够识别的内容。
iii.匹配响应内容,您期望探测目标网站返回什么样的内容。
iv. 匹配方式:选择匹配,则如果网站返回内容匹配您期望的内容报警;选择不匹配,则如果网站返回内容不匹
配您期望的内容报警。
5
云监控/使用手册
v. Cookie:您期望探测目标网站需要的cookie,key:value形式,多个cookie以半角分号分隔。
vi. http请求头信息:您期望探测目标网站需要的http header信息,key:value形式,多个header以半角分号分
隔。
b. ping监控: 您可以使用ping监控服务来检测目标服务的网络延迟。
c. Tcp监控: 监控地址的端口是不是连通的。另外,您也可以配置请求内容和期望的响应内容。如果配置了这
两项内容,则不匹配时会报警。内容支持16进制字节码和文本两种形式
i. 16进制字节码。如:0xcf,0x0f,0x85,0x85
ii. 文本。系统内容会对文本内容进行转换,请注意空格等容易出错的字符。
d. Udp监控: 监控某地址的udp服务,因为udp协议的特性,必须要为udp配置请求和响应内容,否则udp探
测将永远成功。
i. 16进制字节码。如:0xcf,0x0f,0x85,0x85
ii. 文本。系统内容会对文本内容进行转换,请注意空格、换行符等容易出错的字符。
e. DNS监控: 监控域名的可用性和响应时间,并获得各种域名记录列表,支持域名轮询(RR)。通常只需要默认
选择查询类型A.
f. POP监控: 监控POP3协议的接收邮件服务器,填写正确的地址、端口,如果配置用户名密码,则会验证用
户名密码。请注意频率,如果频率太快,有可能会导致对方服务屏蔽您的账号。请依据对方服务选择是否使用
完全连接。
g. Smtp监控: 监控SMTP协议的发送邮件服务器,填写正确的地址、端口,如果配置用户名密码,则会验证
用户名密码。请注意频率,如果频率太快,有可能会导致对方服务屏蔽您的账号。请依据对方服务选择是否使
用完全连接。
h. ftp监控:验证Ftp服务是否正常以及延迟情况。
约定
a. 每个创建成功的监控点会形式两个监控指标,一个是状态status,一个是响应时间responsetime。对所有的
状态来说,我们约定,http小于400的状态码为正常(对需要匹配内容的服务,如果服务状态正常,但内容不
匹配,我们也认为是不正常。),大于等于400的状态为异常(有可能是服务响应内容不匹配您预置的期望值
)。
b. 响应时间单位是毫秒millisecond。
c.对于可用性图表,每小时计算一次。可用性的计算是根据您的设置的HTTP探测频率来定的,若您设置的频率
是1分钟,那么在一个小时内就会探测60次,然后会计算其中探测成功的次数。
d. 对于ping监控,目前没有可用性统计,我们展示的是某统计周期内的丢包率和响应时间的平均值统计。
e. 监控点创建成功后,站点监控后台会启动相应的探测任务, 按您指定的频率探测并上报数据给云监控后台
,进行分析和报警服务。
添加报警规则
6
云监控/使用手册
设置站点监控的监控点后,会弹出窗口提示站点监测添加成功,选择设置报警规则按钮,可进入报警规则设置
。如果不进行设置,可后续在站点管理页添加报警规则。
创建报警规则表单详细描述:
对状态码和响应时间设置范围(ping协议设置丢包率),当不在范围内时,即为超出阈值。
设置通知对象:
1) 重试几次报警:您可以选择连续几次超过阀值报警,默认是三次,通常偶然因素会导致状态不对或者服务响
应超时,连续三次以上更能代表服务工作不正常,减少误报的情况。
2)报警方式 多检测点独立报警:任一检测点异常时都会发生一次报警 多检测点组合报警:状态类报
警采用所有检测点都异常才报警,丢包率及setime响应时间类报警采用多检测点取平均值
进行报警
4) 联系人通知组:云账号报警联系人。
3 查看监测数据
可以查看可用性和响应时间
4 站点监控所有监控项
7
云监控/使用手册
请查看监控项参考手册
5 站点监控返回状态码说明
以下是对查看HTTP监测报警历史中,云监控自定义报警值(状态码)的说明
状态码说明备注
监测点探测您的网站时出现连接
超时现象,云监控发出Http请求
后5秒内没有回包,会返回
610状态码,建议您设置报警规
则时选择多站点组合报警,避免
因某一站点网络抖动造成的报警
请检测您的服务端是否限制了云
监控的探测请求,如有开启防火
墙,请添加最新的云监控IP地址
查询域名解析失败,建议联系您
的域名解析服务商协助检查域名
解析是否不稳定
您在新建HTTP类型的站点监测
时,如果使用了GET或POST请
求方式,并在高级设置中填写了
“匹配响应内容”,那么当匹配
方式不符合您的设置时,就会返
回615状态码
610Http连接超时
611Http探测无法访问您的站点
613DNS无法解析
615
返回的响应内容与用户设置的期
望不符合
631
650
681
TCP 连接失败
DNS探测连接超时
FTP探测无法连接您的站点
以下是HTTP常见状态码说明,按ctrl+F快速查找状态码
状态码说明
200
3XX
请求已完成
备注
2XX状态码均为正常状态码返回
3XX状态码为重定向状态码
服务器根据请求可执行多种操作
。服务器可根据请求者 (User
agent) 来选择一项操作,或提
供操作列表供请求者选择
请求的网页已被永久移动到新位
置。服务器返回此响应(作为对
GET 或 HEAD 请求的响应)时
,会自动将请求者转到新位置
服务器目前正从不同位置的网页
响应请求,但请求者应继续使用
原有位置来进行以后的请求。此
代码与响应 GET 和 HEAD 请求
的 301 代码类似,会自动将请
求者转到不同的位置。
300多种选择
301永久移动
302临时移动
8
云监控/使用手册
303查看其他位置
当请求者应对不同的位置进行单
独的 GET 请求以检索响应时
,服务器会返回此代码。对于除
HEAD 请求之外的所有请求,服
务器会自动转到其他位置
自从上次请求后,请求的网页未
被修改过。服务器返回此响应时
,不会返回网页内容
请求者只能使用代理访问请求的
网页。如果服务器返回此响应
,那么,服务器还会指明请求者
应当使用的代理
服务器目前正从不同位置的网页
响应请求,但请求者应继续使用
原有位置来进行以后的请求。此
代码与响应 GET 和 HEAD 请求
的 301 代码类似,会自动将请
求者转到不同的位置。
客户端出现错误
304未修改
305使用代理
307临时重定向
4xx
400
401
403
错误请求
未授权
已禁止
服务器不理解请求的语法
请求要求进行身份验证。登录后
,服务器可能会返回对页面的此
响应
服务器拒绝请求
服务器找不到请求的网页。例如
,如果请求是针对服务器上不存
在的网页进行的,那么,服务器
通常会返回此代码
禁用请求中所指定的方法
无法使用请求的内容特性来响应
请求的网页
此状态代码与 401(未授权)类
似,但却指定了请求者应当使用
代理进行授权。如果服务器返回
此响应,那么,服务器还会指明
请求者应当使用的代理
服务器等候请求时超时
服务器在完成请求时发生冲突。
服务器必须包含有关响应中所发
生的冲突的信息。服务器在响应
与前一个请求相冲突的 PUT 请
求时可能会返回此代码,同时会
提供两个请求的差异列表
如果请求的资源已被永久删除
,那么,服务器会返回此响应。
该代码与 404(未找到)代码类
似,但在资源以前有但现在已经
不复存在的情况下,有时会替代
404未找到
405
406
方法禁用
不接受
407需要代理授权
408请求超时
409冲突
410已删除
9
云监控/使用手册
404 代码出现。如果资源已被永
久删除,那么,您应当使用 301
代码指定该资源的新位置
411
412
需要有效长度
未满足前提条件
服务器不会接受包含无效内容长
度标头字段的请求。
服务器未满足请求者在请求中设
置的其中一个前提条件。
服务器无法处理请求,因为请求
实体过大,已超出服务器的处理
能力。
请求的 URI(通常为网址)过长
,服务器无法进行处理。
请求的格式不受请求页面的支持
。
如果请求是针对网页的无效范围
进行的,那么,服务器会返回此
状态代码。
服务器未满足”期望”请求标头
字段的要求。
服务器端发生错误
服务器内部错误
服务器遇到错误,无法完成请求
。
服务器不具备完成请求的功能。
例如,当服务器无法识别请求方
法时,服务器可能会返回此代码
。
服务器作为网关或代理,从上游
服务器收到了无效的响应。
目前无法使用服务器(由于超载
或进行停机维护)。通常,这只
是一种暂时的状态。
服务器作为网关或代理,未及时
从上游服务器接收请求。
服务器不支持请求中所使用的
HTTP 协议版本。
413请求实体过大
414
415
请求的 URI 过长
不支持的媒体类型
416请求范围不符合要求
417
5xx
500
未满足期望值
501尚未实施
502错误网关
503服务不可用
504
505
网关超时
HTTP 版本不受支持
云服务监控
云服务监控
云服务监控是阿里云为用户提供的各种云产品的监控当前对用户开放的包括ECS、RDS、SLB、OCS、OSS、
EIP,其它云产品的监控会陆续加入进来。
云服务器监控
10
云监控/使用手册
云服务器的监控是对ECS服务器的监控。云监控是使用Agent进行监控的。云监控的Agent是云盾的一个插件。
使用云监控来监控ECS服务器必须安装云盾。使用Agent进行监控的好处是从虚拟机内部获得的数据,获得的体
验与客户体验是完全一致的,Agent本身对系统带来的开销是很低。
云监控组件安装 目前云监控组件需要在每一台ECS服务器单独安装。云监控现在支持云监控Agent自动安装和
升级,未安装云监控的实例在云监控状态栏下会显示点击安装,您点击后即可自动为您安装插件。
稍等片刻,刷新后云监控状态变为点击安装,点击此处便可进行自动安装。
注意:若该ECS为其他帐号创建,需要到创建订单的帐号中使用ECS监控功能。
若您自动安装失败,或安装后ECS监控无法获取监控信息,请手动安装插件。 安装云监控组件,需要使用
administrator或者root权限执行安装操作:
有公网IP地址云监控组件安装
1. Linux类系统:
1) 确认操作系统中已有unzip、iostat命令。如果没有,请通过yum install unzip sysstat或apt-get install unzip sysstat进
行安装。
2) wget /download/cms_
3) chmod +x cms_
4) ./cms_
安装完成后,请等待5分钟后检查服务器列表。
2. Windows系统:
1) 下载/download/win32/modules/aegis_
2) Windows 32bit, 解压至C:Program FilesAlibabaAegisaegis_quartz
3) Windows 64bit, 解压至C:Program Files (x86)AlibabaAegisaegis_quartz
15分钟后在控制台观察是否有数据。
无公网IP地址云监控组件安装
1. Linux类系统:
11
云监控/使用手册
1) 确认操作系统中已有unzip、iostat命令。如果没有,请通过yum install unzip sysstat或apt-get install unzip sysstat进
行安装。
2) wget /download/cms_
3) chmod +x cms_
4) ./cms_
安装完成后,请等待5分钟后检查服务器列表。
2. Windows系统:
1) 下载/download/win32/modules/aegis_
2) Windows 32bit, 解压至C:Program FilesAlibabaAegisaegis_quartz
3) Windows 64bit, 解压至C:Program Files (x86)AlibabaAegisaegis_quartz
15分钟后在控制台观察是否有数据。
问题排查方法:
若您已经升级至新版本云盾,但没有看到监控数据,可按照以下几种方式排查。
1.检查监控模块是否安装成功:
1).Windows用户请在任务管理器中查看是否有aegis_进程。
2).Linux用户请ps查看是否有aegis_quartz进程。
2.检查网络是否连接,您可以尝试telnet 80,若网络不通,检查您是否设置了防火墙ACL规则。
3.执行./cms_命令,提示aegis version is smaller than 60, pls upgrade it first是,请参考
/read/ 将云盾插件卸载后再重新安装,然后再安装云监控插件
云服务器ECS监控
ECS监控,可以一次配置一台服务器,也可以一次配置n台服务器的m个不同的报警,这样可以一次性n*m个监
控点。配置好后每个监控点可以独立修改。
创建实例监控组 如果有众多的ECS服务器,可以把不同的ECS服务器分到不同的组里。同一台ECS可以分到不同
多个组。您可以按照您的分组需求来划分组,例如按照不同应用使用的ECS服务器来分组。
12
云监控/使用手册
点击新建实例分组后,进行分组设置
监测ECS服务页面 选中一个ECS实例后,点击进入监测图表页面,综合展示所有监控项数据
您也可以查看每一个监控项的大图
13
云监控/使用手册
ECS监控项速查 |监控项|含义|维度|备注| |-----|-----|-------|------| |CPU使用率|当前已运行程序占用的ECS计算
资源的百分率|instanceId实例| | |磁盘IO读| |instanceId 实例,diskname磁盘| | |磁盘IO写| | instanceId 实例
,diskname 磁盘| | |平均负载|针对Linux的概念,服务器的load average的数值|instanceId实例,period|系统平
均负载的数值不大于1就可以,如果您服务器是多核的,平均负载的值需要除以cpu核数,得到的值小于1就可
以,通常平均负载数值超过1,说明目前进程存在队列,服务器运行会慢| |磁盘使用率| 当前虚拟磁盘的使用百
分率 |instanceId 实例,mountpoint 挂载点| | |出流量| 出带宽,流量峰值由ECS配置决定 | instanceId 实例名
,netname 网卡| 超出购买的带宽时,会出现访问不可达或请求缓慢的情况。监控图上的eth0是服务器内网的流
量,eth1是服务器外网的流量 | |入流量| 入带宽,流量不受限制 |instanceId 实例名,netname 网卡| | |内存使
用率| 应用程序的内存使用率 |instanceId 实例| | |TCP连接数| 服务器建立的TCP连接总数 |instanceId 实例,
state 状态| | |系统进程总数|服务器运行的进程总数量 |instanceId实例| | |进程数|添加进程监控后,会对指定关
注的进程进行计数,显示正在运行的被关注进程总数 |instanceId实例,processName进程名| |
ECS常见监控问题解答 1.云监控上内存使用量与ECS服务器实际看到的不一致?
由于云监控取值具有时间间隔,所以会和ECS服务器上看到的内存使用量有细微差别,点击查看详情
2.如何监测服务器的具体端口?
对于TCP端口和UDP端口,可通过在站点监测中添加监控信息来实现。
的监控项没有监控数据
请您查看aegis_进程是否还在,如果不在,请重新安装云监控插件参考
执行telnet 80 若网络不通,建议您检查您是否设置了防火墙ACL规则。
4.安装云监控插件时,提示版本过低:aegis version is smaller than 60, pls upgrade it first
请参考连接升级插件版本:/read/
关系型数据库RDS监控
云监控通过监控RDS的磁盘使用率、IOPS使用率、连接数使用率、CPU使用率,让您一目了然的了解RDS的运
行状态。用户购买RDS产品后,云监控会自动对上述四个监控项进行监控,无需安装任何插件。
14
云监控/使用手册
监测RDS服务页面 选中一个RDS实例后,点击进入监测图表页面,综合展示所有监控项数据
您也可以查看每一个监控图表的大图
RDS监控项速查 |监控项|含义|维度| |-----|-----|-------| |磁盘使用率| 数据库实例中磁盘空间的使用百分率
|instanceId实例,type| |IOPS使用率| 数据库实例的每秒IO请求次数|instanceId实例,type| |连接数使用率| 连
接数是指应用程序可以连接到RDS实例的数量。连接数使用率即已经使用的连接数百分率|instanceId实例
,type| |CPU使用率| 实例对CPU的使用率,数据库内存的大小决定CPU的性能|instanceId实例,type|
RDS常见监控问题解答 使用率、CPU使用率、连接数使用率过高
15
云监控/使用手册
IOPS使用率过高,说明您的RDS读写比较多,CUP使用率过高则很有可能是慢sql导致,详细可查看帮助文档
负载均衡SLB监控
云监控通过监控SLB的流入流量、流出流量等7个监控项,为用户展示SLB的运行状态。用户创建SLB实例后
,无需安装插件,云监控会自动开始进行监测。
监控SLB服务页面 选中一个SLB实例后,点击进入监测图表页面,综合展示所有监控项数据
您也可以查看每一个监控项的大图
16
云监控/使用手册
开放存储服务OSS监控
云监控通过监控OSS的读取次数、内部错误数等8个监控项,帮助用户监测OSS的运行状态。用户创建OSS实例
后,无需安装插件,云监控会自动开始进行监测。
监控OSS服务页面 选中一个OSS实例后,点击进入监测图表页面,综合展示所有监控项数据
您也可以查看每一个监控图表的大图
17
云监控/使用手册
开放缓存服务OCS监控
云监控通过监控OCS的已用缓存、读取命中率等7个监控项,帮助用户监测OCS的运行状态。用户创建OCS实
例后,无需安装插件,云监控会自动开始进行监测。
监控OCS服务页面 选中一个OCS实例后,点击进入监测图表页面,综合展示所有监控项数据
您也可以查看每一个监控图表的大图
18
云监控/使用手册
专有网络VPC EIP监控
云监控通过监控VPC的弹性公网IP的流出流量、流入流量、流出数据包数、流入数据包数4个监控项,帮助用户
监测VPC中EIP的运行状态。用户创建弹性IP后,云监控自动开始对其监控, 用户可登录云监控EIP界面查看监
控数据。您还可以对监控项设置报警规则,以便数据异常时收到报警息。
监控EIP服务页面 选中一个EIP实例后,点击实例名称即可查看监控项数据图表,图表界面分为如下两种:
19
云监控/使用手册
键值存储KVStore监控
云监控通过监控KVStore的已用容量百分比、已用连接数百分比等监控项,帮助用户获取KVStore的运行状态和
使用情况。用户创建KVStore实例后, 云监控自动开始对其监控,您登陆云监控的KVStore页面即可查看监控
详情。您还可以对监控项设置报警规则,以便数据异常时收到报警息。
监控KVStore服务页面 选中一个KVStore实例后,点击实例名称即可查看监控项数据图表
20
云监控/使用手册
消息通知服务MNS监控
云监控通过监控MNS的延迟消息、无效消息、活跃消息3个监控项,帮助用户获取MNS队列的使用情况。用户
创建MNS的消息队列后, 云监控自动开始对其监控,您登陆云监控的MNS页面即可查看监控详情。您还可以
对监控项设置报警规则,以便数据异常时收到报警息。
监控MNS服务页面 选中一个MNS队列后,点击实例名称即可查看监控项数据图表
您也可以查看每一个监控图表的大图
21
云监控/使用手册
MNS监控项速查 |监控项|含义|维度| |-----|-----|-------| |ActiveMessages|在该Queue中处于Active状态的消
息总数|userId 用户ID,region,bid,queue| |InactiveMessages|在该Queue中处于Inactive状态的消息总数
|userId,region,bid,queue| |DelayMessage|在该Queue中处于Delayed状态的消息总数
|userId,region,bid,queue|
内容分发网络CDN监控
CDN监控项速查 |监控项|含义|维度| |-----|-----|-------| |每秒请求数QPS|时间粒度内的总访问次数/时间粒度|
instanceId实例 | |网络带宽峰值|单位时间内网络流量的最大值|instanceId实例| |字节命中率|时间粒度内请求的
字节数命中缓存的概率,注“字节=请求数 x traffic”,字节命中率更直接反馈了回源流量|instanceId实例| |回
源带宽峰值| 单位时间内回源流量的最大值 |instanceId实例| |返回码2xx占比|时间粒度内http返回码2XX占全部
返回码的百分比 |instanceId实例| |返回码3xx占比|时间粒度内http返回码3XX占全部返回码的百分比
|instanceId实例| |返回码4xx占比| 时间粒度内http返回码4XX占全部返回码的百分比 |instanceId实例| |返回码
5xx占比| 时间粒度内http返回码5XX占全部返回码的百分比 |instanceId实例| |其他返回码占比| 除上述返回码
外,其他http返回码占全部返回码的百分比 |instanceId实例|
自定义监控
自定义监控
自定义监控是提供给用户自由定义监控项及报警规则的一项功能。通过此功能,用户 可以针对自己关心的业务
进行监控,将采集到监控数据上报至云监控,由云监控来进行数 据的处理,并根据结果进行报警。
云监控当前允许至多 10 个自定义监控项,且上报监控数据的服务必须在阿里云的云服务器上。
创建自定义监控项
用户点击创建监控项按钮,即可进行自定义监控项设置页面: 名词解释 【监控项名称】: 用户上报的监控数
据指标名称,如 cpuUtilization, memoryUtilization 等。 【单位】: 监控数据的单位,在上报数据时不会做
校验,只是为了便于展示数据,或者 便于数据信息的沟通,希望用户根据自己的实际情况填写。 【上报频率】
: 监控数据上报的周期,只允许 1 分钟,5 分钟,15 分钟三种上报频率 【字段信息】: 一条监控数据肯定需
要附属到某一实体才有意义。如 ECS 的 cpu 监控 项,需要映射到某台机器才有意义。因此,字段信息可以填
写 vmIP,在用户上报监控数 据时,需要在上报的数据中填写如 vmIp=。字段信息最多允许五
22
云监控/使用手册
项。 【统计周期】: 用户可以告知云监控,上报的监控数据需要以何种频率进行聚合。 【统计方法】: 与统
计周期结合使用,若您选择了5分钟的统计周期,则云监控会为您计算这5分钟内上报数据的平均值、求和值、
最大值、最小值、采样计数值(上报了多少条数据)
自定义监控SDK(python版) :cms_
自定义监控SDK(bash版) :cms_
创建报警规则(可选)
【字段信息】中的app_name即为上一步骤中用户填写的字段信息,用户若填写了,则表示对上报
的监控数据中字段信息app_name=””设置了报警规则。 用户也可以此时取消创建。若有需要
,可以在左边侧栏【自定义报警管理】中,选择您要创建的监控项,进行告警规则的设置。
至此,用户在云监控控制台的操作已经完成。
配置数据上报
我们为用户封装了SDK,当前支持python(2.6 +)与bash。 自定义监控SDK(python版) :cms_
自定义监控SDK(bash版) :cms_
用户可以下载相应的脚本至自定义脚本路径下
#!/usr/bin/python
####
#### Function: CMS self-defined monitor SDK
#### Usage: python cms_ ali_uid, metric_name, value, fields
#### Author: CMS Dev Team
#### Company: Aliyun Inc.
#### Version: 1.0
#### Description: Since Python 2.6, please check the version of your python interpreter
####
import sys
23
云监控/使用手册
import time
import socket
import random
import urllib
import httplib
import json
import logging
from rs import RotatingFileHandler
REMOTE_HOST = ''
REMOTE_PORT = 80
REMOTE_MONITOR_URI = "/metrics/put"
def post(ali_uid, metric_name, metric_value, fields):
#### init logger
logger = ger('post')
el()
handler = RotatingFileHandler(filename="/tmp/", mode='a', maxBytes=1024 * 1024, backupCount=3)
formatter = ter(fmt='%(asctime)s - %(levelname)s - %(message)s')
matter(formatter)
dler(handler)
aulttimeout(10)
#### convert dimensions
kv_array = (',')
dimensions = {}
for kv in kv_array:
kv_array = ('=')
dimensions[kv_array[0]] = kv_array[1]
json_str = (dimensions)
#current timestamp
timestamp = int(() * 1000)
#concate to metrics
metrics = '[{"metricName": "%s","value": %s, "unit": "None","timestamp": %s, "dimensions": %s}]' % (
metric_name, metric_value, timestamp, json_str)
print metrics
params = {"userId": ali_uid, "namespace": "acs/custom/%s" % ali_uid, "metrics": metrics}
#report at random 5 seconds
interval = t(0, 5000)
(interval / 1000.0)
data = ode(params)
headers = {"Content-Type": "application/x-www-form-urlencoded", "Connection": "close"}
exception = None
http_client = None
try:
http_client = nnection(REMOTE_HOST, REMOTE_PORT)
try:
http_t(method="POST", url=REMOTE_MONITOR_URI, body=data, headers=headers)
response = http_ponse()
if == 200:
return
else:
24
云监控/使用手册
print "response code %d, content %s " % (, ())
("response code %d, content %s " % (, ()))
except Exception, e:
exception = e
finally:
if http_client:
http_()
if exception:
(exception)
if __name__ == '__main__':
if len() != 5:
print "illegal argument counts, should be 4"
exit(1)
post([1], [2], [3], [4])
1) python,cms_ 在用户的脚本中,import cms_post,调用cms_post的post方法。 一般默认
#!/usr/bin/python
2)注意:请在您的脚本开始处添加对应的解释器,一般默认#!/usr/bin/python
在中,import cms_post
post方法中传入4个参数,分别为aliuid, 监控项名称,监控项值,字段信息,您只需添加定时任务即可。 再次
强调这些参数的意义,参见云监控控制台自定义监控自定义监控项管理
a. 命名空间中的数字串,即是用户的aliuid
b. 监控项名称,即是用户创建监控项时填写的名称
c. 监控项值,是用户上报到云监控的业务数据
d. 字段信息,结合监控项,表示具体业务字段的实际意义。
例如字段信息是machineIp,监控项名称cpuutilization,若当前cpu利用率80%,那么在上面的示例中传入的
参数分别是1394, cpuutilization, 0.8, machineIp=192.168.1.1
2) bash, cms_
在您的bash脚本中,请使用cms_的全路径,否则定时任务调度工具可能找不到cms_。请按照
下面的示例的使用方式引入cms_。文件的内容:
参数说明参见python方式
3) 用户可以一次性上报多条监控数据,详情请参考云监控用户手册
数据上报规范 自定义监控操作分为两部分,一部分操作是在云监控 Portal 上配置自定义监控项与报警规则,另
一部分操作是用户编写代码上报监控数据。
用户可以使用云监控接口 /metrics/put 上报监控数据 Post 方式
用户可以一次提交多条统计数据,统计数据放在消息体中,遵循 JSON 格式。如消息体内容:
userId=123456&namespae=acs/custom/123456&metricsnbsp;=
[{"metricName":"","timestamp":"48","value":80.0,"unit":"Percen
25
云监控/使用手册
t","dimensions":{"instanceId":"vm_001"}}]
GET 方式
用户可以一次提交多条统计数据,统计数据存放在 metrics 字段中,遵循 JSON 格式。
/metrics/put?userId=123456&namespae=acs/custom/123456&metrics[{"metricName":
"","timestamp":"48","value":80.0,"unit":"Percent","dimensions"
:{"instanceId":"vm_001"}},{"metricName":"","timestamp":"48","v
alue":1280.0,"unit":"Megabytes","dimensions":{"instanceId":"vm_002"}}]
字段说明
字段名称
userId
namespace
metricName
value
timestamp
unit
dimensions
字段说明
用户唯一标识,对非系
统内部默认账号
名字空间,表明监控数
据所属产品
监控指标名称
监控指标值
时间
统计项单位
即字段信息,用于标识
资源或服务的唯一
ID,可以多个
字段类型
long
String
String
数值型
String
String
String
是否必须
必选
必选
必选
必选
必选
必选
必选
metricName:portal 创建时填写的【监控项名称】
unit:用户选择的【单位】
dimensions:用户填写的【字段信息】,允许多个,使用半角逗号分隔
namespace: 红色方框中的字符串
userId:红色方框字符串最后的数字串
timestamp:数据上传的时间,支持两种表示方式:一种方式取时间的长整型表示方式 48,另
一种方式按照 ISO8601 标准表示,并使用 UTC 时间,例如 2014- 9-11T10:00:00Z,注意它对应的北京时间
26
云监控/使用手册
是 2014-09-11 18:00:00
响应消息
云监控收到 http 请求后,若处理成功,则直接返回状态码为 200 的 Http 响应,消 息体中不携带内容,用户
也不需要处理响应消息。若处理失败,返回 JSON 格式的消息 体,同时 Http 响应的状态码不为 200
错误错误描述HTTP Status Code
InternalServerError
InvalidParameterCombinatio
n
InvalidParameterValue
MissingRequiredParameter
由于内部错误或不确定的异常导
致的请求失败
参数组合错误
参数无效或超出范围
缺少必须的参数
500
400
400
400
例如:{"code":"InvalidParameterValue","msg":"the metricName is empty."}
监控数据上报方式 云监控为用户提供了方便的定时任务调度程序,若用户安装了云盾,可以在云盾的目录下找
到aegis_quartz程序
用户也可以使用自己的定时任务调度工具,如Linux环境下的Crontab,Windows 等 若用户使用云
监控提供的调度工具,请用户将编写好的脚本放aegis_quartz/libexec/user下,脚本存放路径为:
操作系统类型自定义脚本存放路径
Windows 32bit
C:”program
files”alibabaaegisaegis_q
uartzlibexecuser
C:”program
files(x86)”alibabaaegisae
gis_quartzlibexecuser
/usr/local/aegis/aegis_quartz
/aegis_quartz/libexec/user
Windows 64bit
linux
,
操作系统类型
Windows 32bit
Quartz路径
C:”programfiles”alibabaaegisaegis_quart
zaegis_
C:”program
files(x86)”alibabaaegisaegis_quartzaegis_
/usr/local/aegis/aegis_quartz/aegis_quartz
Windows 64bit
linux
各操作系统平台下aegis_quartz使用方式相同。下面我们以linux为例,说明quartz的使用方式。 查看帮助
27
云监控/使用手册
查看当前任务
添加任务
删除任务
需要注意的一些事情:
aegis_quartz进程请匆停止,系统的监控数据采集是通过aegis_quartz完成
aegis_quartz程序的调用请使用绝对路径,如linux环境下
/usr/local/aegis/aegis_quartz/aegis_quartz
aegis_quartz libexec/default下面的脚本是内置的监控数据采集脚本,请用户匆修改
用户的监控数据程序只能放在libexec/user目录下面;上面添加任务与删除任务的示例中,脚本程序
的路径写的即是相对路径。因此,用户在命令行中的脚本路径只需要填写成user/xxx即可(其中
xxx,是用户的脚本)
关于任务的执行频率,是基于标准的quartz表达式,用户按照规范填写即可。脚本的监控数据上报频
率请与云监控控制台中设置监控项【上报频率】保持一致(控制台支持的频率是1分钟,5分钟
,15分钟),若修改上报频率请保持控制台与脚本一致,否则监控数据处理会不准确
/usr/local/aegis/aegis_quartz/aegis_quartz -e "GetTasks"
28
云监控/使用手册
aegis_quartz只允许用户创建20个定时任务
若用户的脚本被调度后,没有成功上报监控数据,可以将log level设置为debug模式,通过
aegis_quart/log查看出错的原因;log位置在aegis_quartz/log下
#/usr/local/aegis/aegis_quartz/aegis_quartz -e "SetLogLevel debug"
报警规则
报警规则
云监控提供设置报警规则的功能,对监控项设置报警规则后,当监控数据满足报警规则时会对报警联系人发送
告警信息。
目前ECS的采集数据周期为1min一次,OSS采集数据周期为1h一次,其余均为5min一次。
统计周期指间隔多久进行一次数据统计,统计方法指对超出阈值范围的设置。统计方法中可以设置平均值、最
大值、最小值、求和值、采样计数值。
下面以统计周期为15分钟时,ECS的CPU使用率大于80%为例说明各个统计方法是如何计算的
q
平均值:统计周期内监控数据的平均值。统计结果是15分钟内采集的所有监控数据的平均值,当这个
平均值大于80%时,才算超过阈值
29
云监控/使用手册
q
最大值:统计周期内监控数据的最大值。统计周期内采集的监控数据中,最大值超过80%,即为超过
阈值
最小值:统计周期内监控数据的最小值。统计周期内采集的监控数据中,最小值超过80%,即为超过
阈值
求和值:统计周期内监控数据的总和。对统计周期内采集的监控数据进行求和,求和后的结果超过
80%即为超过阈值。当前云服务的监控项无需用到此统计方法,它主要解决自定义监控中有需要求和
的场景时使用。
q
q
q
采样计数值:统计周期内采集到的监控数据的次数。对于统计周期为15分钟的ECS监控项的例子
,ECS采集数据的频率为1分钟/次,那么采样计数值即为15。当前云服务的监控项无需用到此统计方
法,它主要解决自定义监控中有需要使用采样计数的场景时使用。
Tip: 当前云服务监控的报警设置,无需用到求和值和采样计数值。这两个指标主要用在自定义监控中。请
您详细了解统计方法的含义后再进行设置,避免错误设置报警项给您带来困扰
重试几次报警:指连续几个统计周期超过阀值后触发报警,默认是三次。只有超出重试次数,才会通知报警对
象。
例如:设置CUP使用率超过80%报警,统计周期为5分钟,重试次数为1次,则第一次探测CUP使用率超过
80%时,不会发出报警通知。5分钟后第二次探测CUP使用率超过80%,才会触发报警规则,通知联系人。
在产品监控页面,选择具体的实例信息后,可查看全部报警规则
30
云监控/使用手册
点击报警历史,可查看30天内的报警记录
通道沉默是指,当某一条报警发出后,如果这个异常在24小时之内未被处理,则24小时内不会再次触发报警。
报警联系人
报警联系人
管理报警接收人信息和报警联系组
报警联系人管理
添加,修改,浏览报警联系人信息
31
云监控/使用手册
手机,邮箱和旺旺信息可以作为发送报警时的通知方式
报警组管理
报警组是一组报警联系人,可以包含一个或多个“报警联系人”。在报警设置中,均通过“报警组”发送报警
通知。对应每一个监控点,根据预先设定的报警方式在到达报警阈值时向报警组成员发送报警消息。
在这里可以增加,修改,删除报警组。您可以为不同的业务创建多个报警组。
点击报警联系组后,您可以在报警组中定义可以勾选每个报警人的通知方式,例如选择手机短信,邮箱和旺旺
,可以选择其中一种,或者选择其中两种,也可三种都同时选择。
32


发布评论