Skip to content

z24225021/zabbix_alarm

 
 

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

18 Commits
 
 
 
 
 
 

Repository files navigation

zabbix_alarm

基于zabbix的告警统一平台

现状

  1. 多套告警系统(主要为zabbix,以下基本都是zabbix面临的问题)
  2. 设备繁多,7K+
  3. 告警种类较多(硬件,基本系统信息,系统性能,进程端口服务,日志,自定义等)
  4. 告警接收人设计不同的运维,各个相关业务人员,noc等
  5. 部门、负责人等变化频繁
  6. 需要根据业务或设备类型对系统数据进行展示
  7. 当前告警规则:host->host group->user group->user(sms,mail,other),通过action进行告警发送控制。
  8. 。。。。

问题

  1. 告警系统维护繁琐,一旦有设备变更,要登录多个系统进行调整
  2. zabbix监控了大量的设备,系统性能遇到经常因数据库产生性能瓶颈,且一旦监控系统故障,胡产生大量告警
  3. zabbix既要收集数据,还要处理告警等,用户管理,用户组关系等,增加了许多负担
  4. 设备频繁的上下线,部门变更,负责人变更,已经无力及时调整
  5. 告警规则设置难以满足业务方的需求,大量的action已经无力维护
  6. 没有有效的CMDB提供数据支持(虽然有但是和没有没啥两样,基本也不会解决)
  7. 需要按照不同的业务分组在grafana上进行数据展示
  8. 监控为装机时系统自动向zabbix发起注册,添加默认的模板(需要后面手动调整)
  9. 基本一个人维护以上这些

解决

  1. 设备分组问题

从NGINX配置文件中或者应用名称和ip对应关系 根据主机名进行其它分组,如kvm开头的设备分到group-kvm组中

  1. 关系问题

从现有的host group-user group-user关系中导出数据,确定设备属于哪个部门,部门目前的告警接收人

  1. 告警划分

硬件告警;系统基本告警;性能信息告警;业务相关告警;宕机告警;其它

  1. 订阅

由2中的数据先建立起简单的订阅平台,然后根据告警类型、级别进行订阅

  1. 待定

用户部门关系维护,告警规则,后面再说

About

zabbix为主的统一告警展示平台

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

  • Python 100.0%