01-运维监控(代码片段)

evan-blog evan-blog     2023-02-12     429

关键词:

1、监控的重要性

听闻前辈所说,在监控不发达的时代,出行基本靠走,安全基本靠狗,那个时候没有自动化监控的概念,都是人工盯着机器,进行轮班;每天上班第一件事情就是去巡视一下,看看各项软件打印的信息是否有异常,顺便拿Execl记录一下。

现在如今的企业中,运维就要负责成百上千台的机器,传统的方式依然不行,没有高大上的方法是支持不起这种规模的监控,服务器随时随地可能出库长,需要通过监控来让机器来管理监控机器;不管是虚拟机还是物理机等等,当然有时候先上服务的运行,网络设备,业务状况以及用户体验也需要监控。

监控在企业中扮演着重要的监督角色是我们的眼睛,任何一个地方出现问题我们都需要及时知道确认情况,很多情况下我们对某些类型的监控需要非常敏感,例如用户地区是否正常访问等,一旦出现了问题,我们就需要通过监控确认问题,甚至通过监控触发后续操作来解决问题,减少损失。

监控是整个运维乃至整个产品生命周期中最重要的一环,事前及时预警发现故障,事后提供详实的数据用于追查定位问题,所以监控的重要性就不言而喻了。

2、监控对于运维的比重

基础运维主要扮演处理日常任务,及时救火这样的角色,而监控的构建以及数据采集工作,很多时候都需要多方的协助;不管是基础运维还是高级运维亦或者运维架构师,在紧急的时候人人都要扮演救火英雄的角色,而救火为了更加精确及时发现问题,一套好的完善的监控系统就很自然的作为运维工作中的第一优先级任务。

3、监控组成部分

监控组成部分首先就需要确定数据源,数据不是凭空而来的,只能是通过运维采集而来;数据采集本身是一门学问,比如有针对系统的常规统计,还有针对业务的用户分析流量分析,同时还有安全策略,CC安全等等。

一般常见的数据源流程如下:

服务器/网络设配/用户数据 ---> 产生行为和状态 ---> 数据采集 ---> 监控系统

除了数据源监控系统的组成,监控系统一般包含:数据存储,查询分析,事件触发(报警),数据展示

数据存储:存储采集工具采集而来的数据,一般存储形式多为关系型数据库存储,以及时序行存储;通常一般数据存储根据采集量定相关的容量指标;

查询分析:有了数据我们就需要对数据进行分析,会对数据做多维聚合等,后续再介绍监控系统时在详细说明;

事件出发:一般事件出发主要使用在两方面一个是报警(发送邮件,语音网关,钉钉等);而另外一种则是根据现有系统规则,叫时间提交给机器人做出修复工作;比如我们发现流量高峰MySQL连接池不够使用,通过机器人迅速给MySQL扩容当前合适的配置;

数据展示:通过图表,对数据进行图形化展示,有利于发现问题。

小结

监控对于企业对于运维都是有很深的意义,本文是非常简单介绍了运维监控,后续在下一篇中我们将介绍下运维监控系统的设计。

linux企业运维——kubernetes(二十)prometheus监控(代码片段)

Linux企业运维——Kubernetes(二十)Prometheus监控文章目录Linux企业运维——Kubernetes(二十)Prometheus监控一、Prometheus简介二、k8s部署Prometheus三、Prometheus监控nginx访问量四、Prometheus实现hpa动态伸缩一、Prometheus简介除... 查看详情

linux企业运维——kubernetes(二十)prometheus监控(代码片段)

Linux企业运维——Kubernetes(二十)Prometheus监控文章目录Linux企业运维——Kubernetes(二十)Prometheus监控1、Prometheus简介2、k8s部署Prometheus3、Prometheus监控nginx访问量4、Prometheus实现hpa动态伸缩1、Prometheus简介除了资源... 查看详情

linux企业运维——kubernetes(十六)容器资源监控(代码片段)

Linux企业运维——Kubernetes(十六)容器资源监控文章目录Linux企业运维——Kubernetes(十六)容器资源监控1、Metrics-Server1.1、Metrics-Server简介1.2、Metrics-Server部署2、Dashboard2.1、Dashboard部署2.2、Dashboard可视化控制1、Metr 查看详情

linux企业运维——kubernetes(十六)容器资源监控(代码片段)

Linux企业运维——Kubernetes(十六)容器资源监控文章目录Linux企业运维——Kubernetes(十六)容器资源监控一、Metrics-Server1.1、Metrics-Server简介1.2、Metrics-Server部署二、Dashboard2.1、Dashboard部署2.2、Dashboard可视化控制一... 查看详情

企业运维之zabbix监控部署--监控主机(代码片段)

企业运维之zabbix监控部署1.zabbix介绍2.部署zabbix2.1server端部署2.2中文字体乱码设置2.3agent端部署3.ZabbixAPI方式配置1.zabbix介绍zabbix是一个基于WEB界面的提供分布式系统监视以及网络监视功能的企业级的开源解决方案。zabbix能监视各... 查看详情

企业运维之zabbix监控部署--监控主机(代码片段)

企业运维之zabbix监控部署1.zabbix介绍2.部署zabbix2.1server端部署2.2中文字体乱码设置2.3agent端部署3.ZabbixAPI方式配置1.zabbix介绍zabbix是一个基于WEB界面的提供分布式系统监视以及网络监视功能的企业级的开源解决方案。zabbix能监视各... 查看详情

linux服务监控与运维(代码片段)

linux服务监控与运维一,安装psutil包二,找到操作系统中所有的服务的name和pid三,找到需要监控但没有启动的服务四,监控服务,如果没有开启则自动开启,[并发邮件通知工作人员]五,运行之后的效果࿱... 查看详情

大数据运维工作(linux,ogg,链路监控,hadoop运维等)(代码片段)

大数据运维工程师工作内容Linux运维手册1.启动/关闭集群组件1.1负载均衡1)Nginx运维命令Copytoclipboardcd/usr/nginx/sbin#进入sbin目录Copytoclipboard./nginx#启动nginxCopytoclipboard./nginx-sstop#停止NginxCopytoclipboard./nginx-sreload#重启Ngi 查看详情

clickhouse监控运维常用sql小结(代码片段)

@羲凡——只为了更好的活着Clickhouse监控运维常用SQL小结必须准备:在users.xml中开启<log_queries>1</log_queries>1、查看磁盘空间SELECTname,path,formatReadableSize(free_space)ASfree_space,formatReadableSize(total_space)AStota 查看详情

部署开源夜莺运维监控平台v3版本(代码片段)

官方地址https://github.com/didi/nightingale夜莺运维平台是滴滴开源的一个运维平台有着滴滴公司最佳实践夜莺拆成了四个子系统,分别是:用户资源中心(RDB)、资产管理系统(AMS)、任务执行中心(JOB)监控告警系统(MON)具体介... 查看详情

fabric运维监控:prometheus配置热更新(代码片段)

在上一篇fabric运维监控:prometheus+grafana框架搭建中搭建了prometheus+grafana监控框架,但这里存在一个问题,所有监控job都提前写好在配置文件prometheus.yml中,后面新增job时,都得手动修改配置文件、重启服... 查看详情

运维监控系统pigossbsm为银行运维监控提供全力保障(代码片段)

IT运维服务在银行信息化建设和运行中的核心地位,而定量、实时的交易数据、事件和性能指标成为判断信息系统安全运行状态的主要依据。因此,进行银行业IT运维监控指标体系研究与构建,建立IT统一运维监控指标体系至关重... 查看详情

运维监控系统pigossbsm为银行运维监控提供全力保障(代码片段)

IT运维服务在银行信息化建设和运行中的核心地位,而定量、实时的交易数据、事件和性能指标成为判断信息系统安全运行状态的主要依据。因此,进行银行业IT运维监控指标体系研究与构建,建立IT统一运维监控指标体系至关重... 查看详情

linux运维之监控cpu和内存的日志工具(代码片段)

一、监控CPU和内存的日志工具的使用1、阿里云提供了一个监控CPU和内存的脚本,因free版本不同的原因,脚本中的内容有做细微的修改,脚本内容如下:#!/bin/bash#Whenthefreememoryveryless,thisscripttocollectCPU/memoryusageinformationanddmessageinform... 查看详情

整理全网shell脚本合集,java脚本,运维脚本,告警脚本,监控脚本,日志脚本,docker脚本等---------持续更新!(代码片段)

整理全网Shell脚本合集,Java脚本,运维脚本,告警脚本,监控脚本,日志脚本,docker脚本等---------持续更新!一、ffmpeg脚本1.1打开进程,并判断进程数量1.2关闭进程二、javajar包启动-剔除Pom中依赖三... 查看详情

linux运维命令总结(代码片段)

、什么是运维?什么是游戏运维?1)运维是指大型组织已经建立好的网络软硬件的维护,就是要保证业务的上线与运作的正常,在他运转的过程中,对他进行维护,他集合了网络、系统、数据库、开发、安全、监控于一身的技... 查看详情

grafana-监控-报警-运维文档(代码片段)

Grafana运维文档2019/09/23ChenxinWuweiwei参考资料https://grafana.com/grafanahttps://blog.52itstyle.vip/archives/1984/https://blog.52itstyle.vip/archives/2014/https://blog.52itstyle.vip/archives/2029/https://blog.52itstyle.vip/archives/2049/https://blog.52itstyle.vip/archives/2059/https://blog... 查看详情

企业运维之zabbix监控--报警平台与分布式(代码片段)

企业运维之zabbix监控--报警平台与分布式1.报警平台的使用2.Agent主动模式3.proxy分布式1.报警平台的使用此处选择和睿象云结合来实现报警平台的搭建;注册链接:link进行注册;注册完成之后,点击左侧的CA进入告警平台... 查看详情