监控告警平台的国产化选择—rancher与夜莺的集成(代码片段)

RancherLabs RancherLabs     2023-03-12     775

关键词:

作者简介
张智博,SUSE Rancher 大中华区研发总监,一直活跃在研发一线,经历了 OpenStack 到 Kubernetes 的技术变革,在底层操作系统 Linux、虚拟化 KVM 和 Docker 容器技术领域都有丰富的研发和实践经验。

通常提到在 Kubernetes 集群中搭建监控告警平台,普遍的选择都是 Prometheus,这源于 Prometheus 早期与 Kubernetes 的不断演进以及后续良好发展的生态。实际上,我们有很多不错的选择,尤其是一些国内优秀团队的作品。本文以 Rancher 与夜莺的整合为视角,为社区用户提供一些新的线索,这是打造一站式监控告警的另一个选择。

夜莺监控 (Nightingale) (https://github.com/ccfos/nightingale),是一款开源云原生监控分析系统,采用 All-In-One 的设计,集数据采集、可视化、监控告警、数据分析于一体,与云原生生态紧密集成,提供开箱即用的企业级监控分析能力。2022 年 5 月 11 日,夜莺监控项目赠予了中国计算机学会开源发展委员会(CCF ODC),成为该组织成立后接受捐赠的首个开源项目。

本文的集成实践遵循快速上手体验原则,通过 Rancher 部署 RKE 集群,并将夜莺的 Helm Chart 通过 Rancher UI 安装到该集群中。版本信息如下:

Rancherv2.6.4
Nightingale Chartv0.1.0
RKEKubernetes 1.22.9
Local Path Provisionerv0.0.22

Rancher 具备非常开放的整合能力,夜莺的 Helm Chart 可以非常方便地通过 Rancher Explorer UI 进行管理。安装 Rancher 并使用 RKE 引擎部署下游集群,在 Explorer UI 中切换到该集群,在 App&Marketplace 添加夜莺 Helm Chart Repo,刷新后可在 Charts 中找到 Nightingale:

夜莺的安装需要有 PVC 支持持久化数据,这里使用 Rancher 开发的一个轻量的 Local Path Provisioner,直接在当前集群中执行 kubectl shell 进行快速安装即可。

kubectl apply -f https://raw.githubusercontent.com/rancher/local-path-provisioner/v0.0.22/deploy/local-path-storage.yaml

夜莺的 Dashboard 支持多种访问方式,考虑到快速上手原则,这里使用 NodePort 暴露方式,在安装的 yaml 中,修改expose.type: nodePort

等提示安装完成后,进入 Explorer UI 的 Service Discovery,使用 nightingale 过滤 Service,可以看到暴露的 NodePort 端口为 30007:

访问该 NodePort 端口,使用默认的超管用户(root/root.2020)即可登录到夜莺的 Dashboard:

由于夜莺 Helm Chart 会以 Daemonset 的形式,在 k8s 每个节点上启动了 telegraf 采集器,因此节点主机相关的监控指标,默认会自动被收集到夜莺系统中,只需要在夜莺 Web UI 导入内置的 Dashboard 和 Alert Rule,就可以很顺利的拿到可替代社区 Prometheus 的一站式监控告警平台。

导入内置 Dashboard:

导入内置的 Alert Rule:

在弹出的选择框中,选择导入 linux_by_telegraf,即可看到 Linux 主机相关的告警策略已经成功导入并且生效了。

夜莺的商业化支持目前由独立公司快猫星云(https://flashcat.cloud)负责。快猫星云秉承让监控分析变简单的初心和使命,依托其先进云原生监控分析平台,贯通监控数据要素,集数据采集、可视化、监控告警、数据分析于一体,为企业提供开箱即用的云原生监控分析能力。

通过rancher实现neuvector安全事件监控和告警

...口。站在告警角度来说缺少主动性,本文将介绍如何通过Rancher的监控功能实现NeuVector安全事件的监控和告警。监控及展示整体流程是通过exporter采集指标数据,然后通过ServiceMonitor实现数据的关联,最后通过Grafana和AlertManager实现... 查看详情

rancher2.4.4告警和通知关联

1、首先登录rancher,然后选择集群,点击工具下拉菜单,选择通知点击添加通知,选择短信即可默认接收人可以被后边设置的接收人覆盖2、对告警添加邮件接收人,也就是告警与通知程序关联a.针对集群环境只需要填写相关项即... 查看详情

通过rancher实现neuvector安全事件监控和告警(代码片段)

...站在告警角度来说缺少主动性,本文将介绍如何通过Rancher的监控功能实现NeuVector安全事件的监控和告警。监控及展示整体流程是通过exporter采集指标数据,然后通过ServiceMonitor实现数据的关联,最后通过Grafana和AlertMana... 查看详情

nightingale——夜莺监控系统部署邮件告警系统(代码片段)

前言上文我们说到了部署客户端,现在我们来说下如何部署邮件告警,不然即使发生了错误,不发邮件也不行啊Github仓库|mail-sender步骤如果本地没有GO环境的话,就需要搭建下GO的环境,现在我们来进行操作。克隆编译##克隆查看gitcloneht... 查看详情

datasophon——国产开源大数据管理运维平台

...些特性?极易部署,1小时可完成300节点的大数据集群部署国产化兼容,兼容arm服务器和常用国产化操作系统监控指标全面丰富,基于生产实践展示用户最关心的监控指标灵活便捷的告警服务,可实现用户自定义告警组和告警指标可... 查看详情

vivo统一告警平台建设与实践

一、背景一套监控系统检测和告警是密不可分的,检测用来发现异常,告警用来将问题信息发送给相应的人。vivo监控系统1.0时代各个监控系统分别维护一套计算、存储、检测、告警收敛逻辑,这种架构下对底层数据... 查看详情

rancher2.0集群与工作负载告警

在Rancher1.x时期,告警功能是很多Rancher用户一直希望能够集成进产品内的,因此在Rancher2.0研发阶段,这一直是Rancher研发团队功能列表中的重要一项。 Rancher2.0发布,新版本产品中引入了很多酷炫新功能,其中就包括集群和工... 查看详情

rancher2.6全新monitoring快速入门(代码片段)

...行业IaaS和PaaS平台设计和应用云原生改造指导。软件版本Rancher2.6.4Kubernetes1.22.7+rke2r2概述Rancher2.6监控启用方式与之前版本存在较大差异,属于原生的Prometheus-Operator,通过抽象化一些KubernetesCRD资源,可以更好地把监... 查看详情

夜莺和prometheus告警流程对比分析,pull模型远胜push模型

夜莺和prometheus告警流程对比分析prometheus告警流程分析以sum(rate(coredns_dns_requests_total[1m]))>100为例alert和record复用大部分逻辑prometheus根据配置文件中拿到规则解析规则查询本地存储或远端存储(带触发条件),trigger在存储端返回一... 查看详情

livegbslivenvr等国产化平台中视频监控平台的适配以及实现监控摄像头web浏览器无插件播放的方案

目前在国产话大背景下,很多应用软件都要适配国产化服务器。尤其是与政务、公安相关的项目,基本都开始国产化。目前很少有监控视频平台支持国产话系统的,但是这一步是势在必行的。LiveGBSGB28181视频平台在龙芯、鲲鹏、... 查看详情

快速实现钉钉告警通知处理告警关闭告警

...的效率。对于实现告警通知到钉钉群当中,目前部分主流监控系统可以通过编写代码的方式实现,但是通知的告警内容不够明显,导致寻找关键问题原因的时间过长,并且也无法判定告警是否被处理,这就会大幅影响运维人员的... 查看详情

设计一个靠谱的监控告警平台

...架构师!架构未来,你来不来?— 1 —背景一套监控系统检测和告警是密不可分的,检测用来发现异常,告警用来将问题信息发送给相应的人。vivo监控系统1.0时代各个监控系统分别维护一套计算、存储、检测、告警收敛... 查看详情

搭建一个通用监控告警平台,架构上需要有哪些设计(代码片段)

大家好,又见面了。说到监控告警平台,大家应该都不会陌生,对于线上系统而言可以说是个标配,各个公司或项目也都会有搭建自己的监控告警平台的实际诉求。当前比较主流的监控告警平台实现方案,很... 查看详情

携程实时智能检测平台建设实践

一、背景介绍1.规则告警带来的问题大部分监控平台是基于规则告警实现监控指标的预警。规则告警一般基于统计学,如某个指标同比、环比连续上升或下降到一定阈值进行告警。规则告警需要用户较为熟悉业务指标的形态,从... 查看详情

zabbix构建企业级监控告警平台

zabbix图形可视化监控基础示例——Apache监控服务 上一次展示没调中文,现在让我们先调一下中文模式 第一步:创建主机组 组名自己起一个就行  点击添加后,看到下面这种提示,说明添加成功  并且下... 查看详情

企业监控的三种主流实现方式

监控与告警是运维小伙伴每天都会用到的平台能力,从使用频率这个维度看,监控告警类平台的使用频率要大于各类运维自动化系统。多数自动化运维系统是由例行维护动作触发,而监控告警类平台是7×24小时都要使用,运维人... 查看详情

如何做到告警的智能降噪?

为何要压缩告警?运维监控工具/平台,一般是通过配置固定阈值,达到阈值后自动触发/生成告警。如网络中断、闪断;系统升级更新;设备多监控内容多等情况下,更会产生海量告警。以下为告警管理常见问题:l故障期间,告... 查看详情

企业运维之zabbix监控--报警平台与分布式(代码片段)

企业运维之zabbix监控--报警平台与分布式1.报警平台的使用2.Agent主动模式3.proxy分布式1.报警平台的使用此处选择和睿象云结合来实现报警平台的搭建;注册链接:link进行注册;注册完成之后,点击左侧的CA进入告警平台... 查看详情