分享是一种生活态度,求知,求真,分享工作,分享生活!
最近整理资料时,有几篇写的不错的文档,现贴出来给大家做个参考。 ……继续阅读 »
最近整理资料时,有几篇写的不错的文档,现贴出来给大家做个参考。……继续阅读 »
做网络运维的同学都知道,网络设备告警非常重要,通过告警可以判断哪些设备,哪些链路有问题。一般的告警系统在监控和数据采集方面已经做到了极致,但是在报警处理上并没有很完美的解决方案传统告警系统的痛点:特定重要告警人工处理不及时同一批告警指向同一件事,但人无法进行快速关联出现端口、设备异常告警时,无法快速评估网络流量风险告警出现时摸不着头绪,满世界找设……继续阅读 »
简介随着公司发展,网络设备面临数量增多、设备老化、结构复杂等,告警数量也随之越来越多,为了达到“喝着咖啡做运维”的最高境界,对告警质量的要求也更高。公司网管系统之前做的出口流量、CPU、内存等时间序列的告警场景,算法都过于简单,导致经常出现误报的情况,有时候在值班过程中遇到告警多,误报实在是一种干扰,比如cpu抖动、小流量波动、周期性波动等等,系统都会傻乎……继续阅读 »