刚接手一家单位的网络管理,发现网络比较简单,核心设备为Huawei,接入交换机70台均为H3C S3100,设备较旧已有7年以上,出现些网络故障也是在所难免,保障网络担子不轻。
网络问题
接手后从用户、管理人员各方反馈等,发现网络中存在一定的问题:
弱电间灰尘较大,线缆较乱
网络经常出现瞬断现象
每年都有几台网络设备故障
网络有时比较卡,过段时间后会自动恢复
可能存在的隐患有:
网络设备可能出现异常
部分交换机风扇有可能实效
部分设备接口有可能损坏
接入端存在环路的可能
针对上面的情况,需要有有效手段对网络进行监测,定位网络隐患并通过告警及时响应。
zabbix监控
主要监控设备为交换机,监控方式必然采用SNMP,考虑到告警、设备数量不多,相对prometheus,使用zabbix是较为合适的选择。
监控项
考虑上述隐患,分析监控项如下:
核心交换机
ICMP Ping
SNMP 状态
设备描述、版本信息等
设备上线时间
CPU使用率、内存使用率、温度
风扇状态、电源状态
主要接口状态
主要接口出入流量、出入包速率、错误数量
接入交换机
ICMP Ping
SNMP 状态
设备描述、版本信息等
设备上线时间
CPU使用率、内存使用率、温度
风扇状态
由于接入交换机均直接接入核心,因此不在接入上监控上联端口情况,接入接口其他端口连接终端设备,一般情况不作监控。
触发告警
主要告警有:
ping不通
ping平丢包率过高
ping响应值较高
无法获取SNMP
设备刚重启
cpu利用率高
mem利用率高
温度过高
温度过低(部分设备无法获取温度,一直为0)
风扇异常
接口使用率过高
接口发包速度过快
接口错误率过高
日志监控
网络中一些异常会通过trap、设备之身日志方式,对于设备日志,可以采用syslog方式发送到日志服务器,通过在日志服务器部署zabbix agent,使用active模式可对日志文本的监控分析,对异常情况进行告警
设备异常登录
设备接口异常(接口错误、)
设备状态异常(风扇、电源)
安全风险(设备自身检测出的网络攻击,如ARP miss等)
...
案例
网络瞬断分析
网络瞬断比较难处理,在整个网络中也是较难排查,采用zabbix自带的模板“Template Module ICMP Ping”对网络交换机管理网段进行检测,运行一段时间后,发现有大量告警,出现一段时间(约2分钟左右)的中断。对高告警进行统计分析:
主要集中在几台设备,时间上也集中在上下班时间,因此怀疑设备配置需要检查,尤其是STP相关,查阅文档,对交换机进行优化,对终端接口启用边缘接口,减少对生成树的影响。调整之后,观察设备不存在ping不通的情况:
经对比,验证采用配置边缘接口效果较好,可以向全部网络设备推广,至于响应时间过高,已经比之前少很多,可以预计全部配置后效果应该更少。
观察配置边缘接口的设备,发现CPU使用率有明显变化,进一步印证效果: