作者:Ailsa大宝贝 | 来源:互联网 | 2023-09-25 11:04
监控目标明白监控的重要性以及使用监控要实现的业务目标通常包括以下三点:对目标系统进行实时监控监控可以实时反馈目标系统的当前状态目标系统硬件、软件、业务是否正常、目
监控目标
明白监控的重要性以及使用监控要实现的业务目标
通常包括以下三点:
监控方法
监控核心
监控工具
-
老牌监控
-
流行监控
-
Zabbix
-
OpenFalcon
-
Prometheus+Grafana
-
滴滴开源夜莺Nightingale
-
smartping(专用于网络监控)
-
LEPUS天兔(专用于监控数据库)
-
自研
-
第三方监控
监控流程
通过SNMP、Agent、ICMP、SSH、IPMI等对系统进行数据采集
各类数据库服务,MySQL、PostgreSQL
提供图形及时间线情况信息,方便我们定位故障所在
指标信息、指标趋势展示
电话、邮件、微信、短信、报警升级机制
故障级别判定,找响应人员进行快速处理
监控指标
硬件监控
系统监控
-
主机存活
-
CPU、内存、硬盘、使用率
-
inode
-
负载
-
网卡出入带宽
-
TCP连接数
-
磁盘读写、只读
应用监控
MySQL
-
服务可用性
-
内存使用率
-
磁盘使用
-
主从不同步及延迟
-
备份情况
-
连接数
Redis、Redis Cluster
Nginx
-
状态码
-
连接状态信息
-
RabbitMQ
-
PHP-FPM
-
OpenLDAP
-
Zimbra
-
OpenVPN
-
ELK
-
Graylog
-
GitLab
-
Jenkins
-
MongoDB
-
HAproxy
网络监控
流量分析
日志监控
安全监控
性能监控(APM)java|php|go|nodejs|分布式链路追踪
-
PinPoint
-
Zipkin
-
SkyWalking
-
CAT、Jaeger
业务监控
电商业务为例:
-
每分钟产生多少订单
-
每分钟注册多少用户
-
每分钟多少活跃用户
-
每天有多少推广活动
-
推广活动引入多少用户
-
推广活动引入多少流量
-
推广活动引入多少利润
其他
-
SSL证书监控
-
存活性 进程是否还在,端口监听、Log滚动
-
健康指标 MQ消息堆积量
-
接口监控 API成功率,延迟情况,QPS等等
监控报警
-
邮件
-
短信
-
钉钉、微信、企业微信等其他即时通信软件
-
电话
报警处理
故障自愈: 服务器宕机自动启动。利用软件机制supervisor,systemd或者自定义脚本实现
综合监控
硬件监控
通过SNMP来进行路由器交换机的监控、其他内容使用IPMI实现。如果都是公有云,可以忽略这部分内容。案例:Open-Falcon监控H3C-ER3260G2路由器
系统监控
服务监控
-
服务自带
-
Nginx自带status模块
-
PHP相应status模块
-
MySQL利用percona官方工具进行监控
-
通过自定义方法获取数据
-
网络监控(混合云架构)
-
安全监控
-
日志监控
ELK、Graylog实现异常日志,错误日志关键字的监控
-
业务监控
确定监控指标,监控起来,业务不同各不相同
-
流量分析
建议使用百度统计,google统计,商业,研发嵌入代码实现。
或者使用piwik
-
可视化
dashboard
-
自动化监控
通过API,批量操作
监控总结
完整的监控系统,需要对业务有详尽的了解,软件只是手段。