关于运维监控实践中的一些tips

key_3_feng key_3_feng     2022-12-03     399

关键词:

监控是一场攻坚战,更是持久战,一方面监控系统的功能需要持续优化另一方面监控策略需要持续完善。因为其持续优化的特点,对于监控任务达到一定量级的企业,需要设置专职监控体系建设团队,持续增加和优化监控系统工具,为监控工具的使用者提供强有力的炮火支援;需要设置专职指标优化团队,作为监控系统的使用者,持续推动监控指标的补充完善,推动监控系统功能建设,推动监控持续优化的工作落地。运维团队需要关注监控,开发、业务、运营团队也需要关注监控,因为强大可视化展示能力的监控系统和告警信息同样可以帮助他们站在另外的视角快速掌握和定位系统的运转情况。

在监控实施过程中不能片面地追求监控指标的覆盖度。提高覆盖度乍看起来是为了全面掌握对象状态,但其实一开始方向就错了。实施监控的目标绝对不是为了达到多少个指标、多少条告警规则,这些数据虽有意义,但绝不应该成为我们追逐的目标。有句话是这样说的:不要因为走了太远,而忘了当初为何出发。监控的核心目标是为业务稳定运行保驾护航。从实施层面来看,监控归纳起来就两条:少漏报和少误报

漏报主要有两方面原因:一个是没有监控到,这个好解决,升个级把它监控起来就行了(注意不是堆砌监控指标或系统功能);另一个是没有想到,摸着石头过河,谁知道哪块淤泥里埋了钉子呢,只有被扎到的时候才感觉到痛。所以漏报的情况尽管很难避免,但我们总能想办法尽可能降低漏报的发生。此时还要注意,不要为了实现不漏报,而放松对发送告警信息的控制而产生误报

误报带来的问题也很大:一方面总有人在旁边喊着“狼来了”,会让监控人员产生麻木心理;另一方面误报的信息极易成为干扰数据,造成告警疲劳,甚至有可能使监控人员忽略或者错过真正的故障告警事件,所以监控抛出的告警一定要有价值。

设定合理的监控告警级别是减少监控误报的有效手段。分析清楚哪些告警需要引起关注,哪些告警需要人为干预,哪些告警对应着故障,通过“提醒、预警、告警”等级别进行区分,提高告警即故障的比例。如果所有生产故障的发现都来自监控,那么这一定是最强大的监控系统。要实现这一点不仅要通过技术手段加强保障,提高监控对故障的覆盖率,还要结合企业内部的事件处置流程,优化事件上报机制,保持较为通畅的沟通渠道。

在故障处置过程中,还应努力提高对监控告警事件的处理效率,争取发现即响应,并能在短时间内有效消除故障影响。基于有效的技术保障措施,对大量告警进行针对性优化,提高监控指标的覆盖度,降低误报,同时结合管理手段,重点关注告警事件多次发生但整改效果不明显的系统或团队,通过多方面举措,不断降低告警事件的发生,进而不断提高系统稳定性。

监控系统建设要完善“监”能力,更要增强“控”能力,多数监控系统仍然是“监”多“控”少。从辨证角度来看,作为监控系统的两个功能点,“监”与“控”应当相互搭配、相辅相成。数据要打通,这个打通不仅仅是监控与事件打通,也不仅仅是监控数据与大数据平台打通,还包括监控系统与自动化运维系统打通,对于某些确定性事件,通过规则匹配或者智能学习算法,当告警发生时应能够自动触发干预的策略,也就是故障自愈。

监控系统建设的长远目标之一是预测故障并提前化解生产环境可能发生的故障。通过手工设置预警规则的方式,终归属于被动响应,最理想的情况当然是能够通过历史趋势建立预测模型,利用模型自动判断当前数据是否存在异常。在故障尚未发生时,就能根据数据趋势预判异常征兆,然后第一时间进行干预。预测监控需要建立模型,需要应用系统配合改造,需要借助大数据平台做运维数据分析,对监控采集的运行数据建立一条运行基线,通过对当前监控采集的数据与运行基线做对比,加上当前运行数据与基线比较的策略模型,预测业务运行情况。

运维之监控系统实践

一、监控的分类基础资源监控系统:zabbixopen-falconn9e(夜莺)prometheus(CNCF)cactinagionsganglia应用程序监控(APM):Pingpoint,Twitter的Zipkin,美团的CAT商业化厂商:听云日志监控:ES/自研二、监控系统(我们在用什么?)open-falconzabbix... 查看详情

greenplum实时数据仓库实践——greenplum监控与运维(代码片段)

目录9.1权限与角色管理9.1.1Greenplum中的角色与权限9.1.2管理角色及其成员9.1.3管理对象权限9.1.4口令加密9.2数据导入导出9.2.1file协议及其外部表9.2.2gpfdist协议及其外部表9.2.3基于Web的外部表9.2.4外部表错误处理9.2.5使用gpload导入数据9... 查看详情

关于自动化运维的实践×××

谈起自动化运维,现在已经成为运维工作最热门的词语,关于运维自动化本人早在2012年就已经接触了BMC的ITSM系统,将ITIL运维管理体系和自动化运维工具的有效的结合大幅度的提高了运维工作效率。下图为HP提的统一运维自动化... 查看详情

关于prometheus运维实践项目

关于Promethues运维实践项目1.什么是Prometheus运维实践项目?是什么?Prometheus,普罗米修斯,是古希腊神话中为人间带来火种的神。?Prometheus运维实践项目,是作为IT运维从业者的我,根据自己的知识背景、工作经历、思维层次,现有... 查看详情

轨道交通云联网综合网络管理运维实践

...。在此背景下,北京智和信通技术有限公司轨道交通安防运维集成化管理解决方案,赋能铁路系统、高速公路、城市公共交通视频监控及网络设备的综合网络监控管理。智和信通基于自主研发的智和网管平台SugarNMS,通过监控、... 查看详情

轨道交通云联网综合网络管理运维实践

...。在此背景下,北京智和信通技术有限公司轨道交通安防运维集成化管理解决方案,赋能铁路系统、高速公路、城市公共交通视频监控及网络设备的综合网络监控管理。智和信通基于自主研发的智和网管平台SugarNMS,通过监控、... 查看详情

prometheus监控的最佳实践——关于监控的3项关键指标

本文来自Weaveworks的工程师AnitaBurhrle在RancherLabs与Weaveworks联合举办的OnlineMeetup上的技术分享。在此次分享中,嘉宾们讨论了如何使用Rancher、WeaveCloud和Prometheus来轻松部署、管理与监控Kubernetes。本文将分享Weave是为何以及如何开发... 查看详情

prometheus监控的最佳实践——关于监控的3项关键指标

本文来自Weaveworks的工程师AnitaBurhrle在RancherLabs与Weaveworks联合举办的OnlineMeetup上的技术分享。在此次分享中,嘉宾们讨论了如何使用Rancher、WeaveCloud和Prometheus来轻松部署、管理与监控Kubernetes。本文将分享Weave是为何以及如何开发... 查看详情

关于运维2

IT运维是IT管理的核心和重点部分,也是内容最多、最繁杂的部分,该阶段主要用于IT部门内部日常运营管理,涉及的对象分成两大部分,即IT业务系统和运维人员,该阶段的管理内容又可细分为七个子系统:1、设备管理:对网络设备、... 查看详情

docker--------------实践(转载)

...私有云落地的主要工作是基础设施容器化,同时在应用的运维方面,兼用了之前的配套系统。利用之前的历史系统有利有弊,这些后面再谈。在这里我主要同大家分享一下在容器化落地实践中的一些经验和教训。容器与虚拟 查看详情

网站运维技术与实践之数据分析与报警

对于日益积累的监控数据,显然需要有规划地进行存储和分析,做到“故障没来时有预防,故障来临时有提示,故障到来时有解决方案”。一、时间序列存储对于大多数监控数据,都有一个天然的类似数据库主键的属性,那就是... 查看详情

测试右移的实践方法

...试原有的一些技术沉淀,完成服务质量的保障工作。利用运维技术平台:可以充分利用Ops同学提供的监控平台、日志平台等数据,监控数据的live状态,从而更早的发现生产环节的问题,并将对应问题的一些留痕数据(日志信息... 查看详情

网站运维技术与实践之数据采集传输与过滤

...(3)网卡流量如何采集这些数据,可以通过zabbix监控获取。关于zabbix学习,可以参考我的这篇博客:zabbix学习小结:https://www.cnblogs.com/youcong/p/788 查看详情

最佳实践|从producer到consumer,如何有效监控kafka

对于运维人而言,如何安装维护一套监控系统,或如何进行技术选型,从来不是工作重点。如何借助工具对所需的应用、组件进行监控,发现并解决问题才是重中之重。随着Prometheus逐渐成为云原生时代可观测标准,为了帮助更... 查看详情

关于lampp中的proftpd的一些使用(代码片段)

这个是配置文件ServerName"ProFTPD"ServerTypestandaloneDefaultServeronPort21这个是端口Umask022MaxInstances30Userdaemon<Directory~>AllowOverwriteon</Directory>DefaultRoot~LogFormatauth"%tIP:%aName:%uCMD: 查看详情

智能巡检云监控指标的实践(代码片段)

简介:在真实的企业生产中,对研发和运维的同学都会面临一个十分繁复且艰难的问题,就是对指标的监控和告警。具体我枚举一些特定的问题请对号入座,看看在算力爆炸的时代能否通过算力和算法一起解决... 查看详情

关于sqlserver数据库批量备份与还原的一些tips(代码片段)

一、前提   最近需要将服务器A上的数据库全部备份,并在服务器B上进行还原,30多个数据库一个一个地用鼠标点,先是backup,之后时restore……整个过程实在是太浪费时间了!于是直接写一个小工具来批量备份... 查看详情

最佳实践|springboot应用如何快速接入prometheus监控

...发布与部署只占其生命周期的一小部分,应用和系统运维才是重中之重。而运维过程中,监控工作更是占据重要位置。那么,为了对系统的状态进行持续地观测,面向SpringBoot应用我们该如何快速实现Prometheus监控... 查看详情