谷歌sre的运维理念

author author     2023-03-19     662

关键词:

SRE 的能力模型,不仅仅是技术上的,还有产品设计、标准规范制定、事后复盘总结归纳这些技术运营能力,同时还需要良好的沟通协作能力,这个就属于职场软技能。

SRE以稳定性为目标,围绕着稳定这个核心,负责可用性、时延、性能、效率、变更管理、监控、应急响应和容量管理等相关的工作。

  • 管理体系上,涉及服务质量指标(SLI、SLA、SLO)、发布规则、变更规则、应急响应机制、On-Call、事后复盘机制等一系列配套的管理规范和标准制定等。
  • 技术体系上,以支持和实现上述标准和规范为目标,涉及自动化、发布、监控、问题定位、容量定位,最终以电子流程串联各个环节,做到事件的闭环。

可以看到技术上的平台和系统是用来支撑管理手段的。谷歌的运维其实并没有单独去提自动化、发布、监控等内容,而是通过稳定性这个核心目标,把这些事情全部串联在一起,同时又得到了效率上的提升。

  • 自动化。是为了减少人为的、频繁的、重复的线上操作,以大大减少因人为失误造成的故障,同时提升效率。比如谷歌内部大名鼎鼎的 Borg 系统,可以随时随地实现无感知的服务迁移。现在,它的开源版本,已然成为业界容器编排体系标准的 Kubernetes。
  • 持续交付。谷歌非常重视持续交付。由于它的需求迭代速度非常快,再加上是全球最复杂的分布式系统,所以就更加需要完善的发布系统。
  • 问题定位。这块跟监控相关但又有不同。SRE 并没有提到太多 Tracing 的内容,更多的是讲监控和问题管理层面的跟踪机制。其实,关于问题定位,谷歌的 Dapper 大名鼎鼎,功能很强大,国内外很多跟踪系统和思路都参考了 Dapper 的理论。这块也是为了能够快速定位问题,保障稳定而产生的,国内分享的大多关于全链路跟踪和分析、限流降级、开关和预案系统、强弱依赖等都属于这个范畴。
  • 各类分布式系统。如分布式锁、分布式文件、分布式数据库,我们熟知的谷歌三大分布式论文,就是这些分布式系统的优秀代表,也正是这三大论文,开启了业界分布式架构理念的落地。

这些系统大都是以稳定性为导向,同时带动了日常运维效率的大幅度提升,有了监控和全链路这样的问题发现和定位手段,也大大提升了我们对故障处理和问题定位的效率。容量管理,不仅仅可以保障容量充足,还能最大程度地保障资源分配的合理性,尽可能减少浪费,对于成本管控也大有好处。所以,围绕着稳定性这个核心目标,不仅达到了稳定的目的,还获得了高效的运维效率。

SRE 的理念通过稳定性这个核心点,将整个运维体系要做的事情非常系统紧密地整合起来,而不是一个个孤立的运维系统。所以,SRE 是一个岗位,但更是一种运维理念和方法论。

要想做好运维,就得跳出运维的局限,要站在全局的角度,站在价值呈现的角度,站在如何能够发挥出整体技术架构运维能力的角度,来重新理解和定义运维才可以。

我拼搏的2016-苦逼运维如何变身为sre成长经历

...人员素质,拉低了整个社会对于这一职业的认知,和当今的运维职业何其相似 查看详情

sre,了解一下?35+岁程序员新选择

...运维。一、什么是SRE?SRE(SiteReliabilityEngineer)从2003年被谷歌公司提出,已经将近20年,它不仅是一个岗位,而是一个体系化的工程。最早谷歌公司提出SRE是为了解决两个核心冲突点:1、开发、运维两个团队在上线速度和现网系... 查看详情

运维侠客行杭州站沙龙回顾|云时代下的运维管理实践

...牌,杭州作为首站,活动当天汇聚了来自不同行业和企业的运维从业人员,其中有几十年的运 查看详情

跨越不确定风险,华为云sre探索云上运维的确定性答案

...“用好云”也是同等重要。想要“用好云”,高质量的运维是必不可少的一环。上云前,传统运维与硬件打交道为主,上云后,运维人员几乎无法见到物理设备,不再束缚于物理硬件的稳定性和可靠性,更... 查看详情

谈谈sre和devops的区别

...bilityEngineering.DevOps全称DevelopmentandOperationsDevOps是开发拥抱运维,开发人员需要学习运维的相关知识能够承担运维的工作.本质偏向开发Googel的SRE是运维侧发起的,运维去拥抱开发,运维的人员需要具备一定的开发能力.... 查看详情

谈谈sre和devops的区别

...bilityEngineering.DevOps全称DevelopmentandOperationsDevOps是开发拥抱运维,开发人员需要学习运维的相关知识能够承担运维的工作.本质偏向开发Googel的SRE是运维侧发起的,运维去拥抱开发,运维的人员需要具备一定的开发能力.... 查看详情

一名不加班的运维,怎能不会善待混合云容器

近期,一阵取消大小周的风从南刮到北,越来越多的企业已然意识到,加班并不能提升工作效率,只会提升脱发效率而已。但是加班这种事,无论什么时间、什么企业都不会放的一群人,必然是运维。运维... 查看详情

《sre:google运维解密》读书笔记

...更管理、监控、故障处理、可用性改进以及优化;4.SRE将运维工作限制在50%,剩余时间花在研发上。5.SRE最终工作是在系统的稳定性和灵活性保持平衡;6.一个需要人工阅读邮件和分析警报来决定目前是否需要采取某种行动的系统... 查看详情

图数据库驱动的基础设施运维实操(代码片段)

...RE/DevOps的实践参考,并以OpenStack系统之上的图数据库增强的运维案例为例,揭示图数据库、图算法在智能运维上的应用。本文系图技术在大型、复杂基础设施之中SRE/DevOps的实践参考,并以OpenStack系统之上的图数据库增强的运维... 查看详情

腾讯运维转型之sre体系建设

来源:腾讯技术工程刘天斯https://mp.weixin.qq.com/s/YHR50kF2QOgjMi83WbwuzA1、什么是SRE利用SRE的思想与方法,不断去冲刺稳定性的终极目标:“提升MTBF(平均故障时间间隔)、降低MTTR(故障平均修复时间)”&#x... 查看详情

sre之道:创造软件系统来维护系统运行

引言:本文作者BenTreynorSloss,Google运维团队的高级副总裁,SRE名称的发明者,在这里提供了他对SRE的定义。 本文选自《SRE:Google运维解密》。  大家都知道,计算机软件系统离开人通常是无法自主运行的。那么,究竟应该... 查看详情

sre,了解一下?35+岁程序员新选择

...什么是SRE?SRE(SiteReliabilityEngineer)从2003年被谷歌公司提出,已经将近20年,它不仅是一个岗位&#x 查看详情

运维2

...运维本身的效率和产品的价值。  运维工程师使用的运维平台和工具包括:Web服务器:apach 查看详情

)(代码片段)

...的ci/cd流程/)`第二阶段:运维标准化:`所有的运维工作都有标准,按照标准文档严格来执行(例如服务上线/故障处理)`第三阶段:运维自动化:`日常的运维工作都能自动化完成,通过cmdb平台/shel... 查看详情

常见的运维漏洞-zabbix

查看详情

读sregoogle运维解密有感

前言这是读“SREGoogle运维解密”有感第二篇,第一篇参见这本书最近又读了几章,结合自己的经历,有些地方真的能感同身受,有些地方也惊叹SRE充满辩证的思想,总之SRE是好一本好书,会给你很大的启发。充满辩证的思想本书... 查看详情

云环境下运维工作面对的诸多新挑战

...(尤其是公有云IaaS)的普及,整个云上运维和传统IDC中的运维还是呈现出比较明显的不同点,我们可以从下面几个角度来理解这种不同点。1.应用运维成为云上用户的运维重心。一般来说,很多企业的运维部门主要工作包括基础... 查看详情

sre和devops

...似乎是同一枚硬币的两个面。他们都旨在弥合开发团队和运维团队之间的鸿沟,都想要提高软件部署的效率和软件运行的可靠性。DevOps的定义是“一种软件工程文化和实践,旨在统一开发和运维”。这个术语最初是由AndrewShafer和... 查看详情