实践分享丨企业上云后资源容量如何规划和实施

阿里云云栖号 阿里云云栖号     2023-01-24     120

关键词:

简介: 企业上云后,云上的预算直接影响上云的优先级、进度、深度。预算投入的多少,与业务发展和资源需求的容量评估紧密相关。精准的容量评估,可以使企业上云的预算规划更科学,同时也更贴合业务发展阶段的需要。本文分享业务上云后企业该如何进行容量的规划和实施。

本文作者:阿里云技术专家李雨前

摘要

随着企业数字化转型、企业IT服务云原生化快速发展,客户上云的步伐更加紧凑,随之而来云上的预算直接影响上云的优先级、上云的进度、上云的深度。预算投入的多少,与业务发展有关,另外一个关键因素就是资源需求的容量评估

精准的容量评估,可以使企业上云的预算规划更科学,同时也更贴合业务发展阶段的需要。本文将分享企业业务上云后,如何进行容量的规划和实施

一、为什么要进行容量规划

企业数字化转型,企业IT服务云原生化正大踏步的发展,上云的或正在上云企业,常规的预算支出中就包含数字信息化或者IT软件服务支出。这部分的预算支出,其中就包含云上资源的预算投入,其核算依据之一:云上容量规划和实施

日常生活中,需要“容量”规划的场景是很普遍的。例如:水库储水就是一个典型的动态“容量”规划过程,需要根据上下游水环境情况做库容的调控。例如:疫情期间,景区实行游客提前预约成功后购票入园的举措,需要根据防控要求做每日游客的总人数的调控。

同理,云上的业务也会动态发展变化,云产品服务依赖的算力资源也需要相应调整。我们把算力资源的用量规划抽象为容量规划。

企业上云后进行容量规划的必要性在于,企业的业务是动态发展的,业务依赖的云上算力资源也需要相应地动态调整。过多算力资源导致资源闲置、成本浪费,过少的算力资源影响业服务响应性能、阻碍业务快速发展。那么,企业上云后,如果不进行容量规划会产生什么问题呢?

首先,可能出现成本投入和业务发展不匹配。例如,当业务呈现快速发展的态势,业务依赖的算力资源需求也呈现上升趋势,此时,如果没有容量规划,很可能业务爆发期来的时候,后端服务能力不能及时跟上,进而影响业务持续、稳定发展,甚至错失业务的黄金发展时机。

另外,互联网技术的应用极大地拉近了服务消费者和服务提供者的距离,服务提供者的服务表现跨地域的高可用、稳定性已是常态化目标。针对这个目标,一种最直接的实现方案:进行地域间的容量冗余,从而在软硬件故障或者其他应急场景下,进行流量切换实现灾备。

总结起来就是:企业上云后,业务的容量规划是刚需,并且需要持续地规划。精准的容量规划,可以帮助业务的快速发展,避免算力支持成为业务发展的瓶颈、阻碍项,同时,企业业务跨地域服务的高可用、稳定性也能得到保障。

二、业务需求转化为容量规划

容量规划是为业务服务的,脱离业务实际状况的容量规划毫无意义。根据业务特征、业务发展阶段目标,制定和业务发展相匹配的容量规划,才是合理的规划。

例如某A企业,B部门的业务需要人均一台办公电脑。目前采购的是阿里云的云桌面产品。今年预计B部门员工数量扩大10%,那么今年云桌面台数的容量规划也需要扩大10%。这个例子比较直观的好理解,实际上不同行业、不同业务特征的云上容量规划需要考虑的因素非常多。下面按通用的理解,进行拆解分析,如图1所示,自底向上逐步细分。

图1-业务驱动的容量规划

因素1:业务需求的整体发展评估    

企业业务整体发展态势和评估是一切需求来源的根基,没有业务整体发展的充分评估,不可能输出合理、有效的容量规划评估。对企业来说,不会为了容量规划而规划,容量规划都是为业务发展服务的。业务整体发展评估自然就在“金字塔”的最底部。

因素2:业务需求云原生部分的发展评估

“金字塔”底部再上一层对应云原生部分的发展评估,云原生服务发展的比例直接关系到云上容量规划预算的比重。对于互联网行业,可能业务的主体都是云原生的;对于传统行业,如果只有企业管理信息化部分上云,那么云原生部分的发展评估就是很小的比重。

因素3:有限预算下,云上优先保障的需求评估

对企业来说,每一项的预算总是有限的,有限的资源服务应当优先服务关键业务的发展,从而实现投入产出比最大化的。对所有云上服务来说,存储数据库计算服务是基础的依赖项,一般这三块的规划和投入都是高优先级保障的。

因素4:业务云原生部分的连续性需求评估

对企业来说,在业务所有的发展阶段,业务的连续性至关重要,尤其是关键业务服务的连续性。所以,容量规划过程,需要关注、评估业务连续性在预算中的体现。例如核心业务依赖的计算资源,可以通过规划:包年包月的实例、弹性资源保障服务、资源预留服务等实现资源的确定性交付,从而保障服务的连续性。

参考资料:资源保障服务

资源保障概述 - 云服务器 ECS - 阿里云

因素5:业务云原生部分的地域容灾需求评估

对企业来说,不同的发展阶段,业务在地域服务的优先级可能有所侧重,那么容量规划需要感知地域。同时,服务的高可用,往往依赖地域之间服务容灾能力的建设。所以,预算需要平衡地域发展的需要。

因素6:业务云原生部分需求独立规划VS综合规划

在前面5个因素基础上,容量评估越来越具体化。接下来从因素6开始,规划需要考虑具体操作的方案影响。独立规划和综合规划依赖的输入不同,输出的方案也不同。例如前面提到的面向员工办公的场景,对云桌面的需求,因为云桌面的彼此相对独立,可以独立规划,独立交付。

例如对于大型Web服务的场景,因为依赖云数据库、云存储、流量带宽等多方面服务,所以容量评估需要整体打包评估、整体交付,避免短板效应。并且在评估具体容量多少的时候,依赖的评估工具和方案也不同。对于独立的规划,一般评估相对容易给出;对于综合的规划,阿里云的容量规划服务提供了全套的解决方案。

参考资料:容量规划服务

阿里云上稳定性保障服务-容量规划服务

因素7:不同云服务供应商当前折扣优惠信息评估

当业务容量规划细分到位后,明确了容量规划落地依赖的产品、工具,那么接下来需要感知折扣优惠信息

不同的云服务供应商,在不同的地域、算力产品上的有相关的活动、折扣。评估这部分内容,可以使得花相同的预算,购买到更多更实惠的算力资源。例如阿里云推出的SavingPlan + CapacityReservation 服务,实现了成本的节约和资源的确定性交付。

因素8:规划的容量交付时间表评估

容量交付时间表评估这一步就是输出在什么时间、什么地域、交付哪些算力资源、对应的预算是多少等具体的规划方案信息。过早或者过迟的交付,都可能与业务发展不匹配,甚至容量规划最终无法落地施行。

三、容量规划映射为资源购买量

上一节我们按分层的方式对容量规划需要考虑的因素做了自底向上的描述。规划评估的本质是:满足业务在合适的时间、地点的发展需要,规划出对应时间、地点的算力需求。

如图2所示,具体的需求到算力的映射方法有很多。下面假设:企业业务未来发展所需云上服务能力是可预测的,基于可预测的值,转化为具体的资源实例购买量需求,进而形成具体的购买方案。下面介绍常用的规划容量映射为资源购买量的技术方案。

图2- 业务需求映射算力需求

方法一:线性映射--水平扩缩容

从资源视角来看,经典的评估方法是:资源实例总量 = 业务总的请求量QPS/ 单个资源实例支持的QPS。当业务发展需要更多的算力时,总的QPS会发生变化,此时需要新增扩容的的资源实例数量 = 新增的QPS/单机QPS。这种方式对应资源调度领域所说的“水平扩容”。阿里云提供的服务例如Auto Scaling 就支持自动水平扩缩容

参考资料:弹性伸缩

什么是弹性伸缩Auto Scaling - 弹性伸缩 - 阿里云

关于水平扩容更多内容可以参考K8s的HPA(Horizontal Pod Autoscaling):

Pod 水平自动扩缩 | Kubernetes

方法二:线性映射--垂直扩缩容

从资源视角来看,垂直扩容是相对水平扩容来说的。通过调整单机资源算力大小也就是调整单机支持QPS的大小(间接通过资源实例的降配来降低单资源实例支持的QPS),来调整总的资源实例数量,从而调整总的服务请求QPS。一般在精细化资源调度、业务负载混合部署场景下,会进行资源单实例的垂直扩缩容。

这种垂直扩缩有两种形态:一种是固定式的(规格调整后就不改变),例如从原来4VCPU,垂直缩容为2VCPU。然后实例按2VCPU 进行水平扩缩容;另外一种是非固定式的(短时间内单一算力资源的弹性伸缩),例如资源实例在运行过程中,进行某个维度资源的“限制”,从而实现单实例资源在特定场景下算力的调整。

对于业务方来说,看到的实例规格没有改变。典型的例如K8s的资源模型里面,如CPU资源申请,有request、limit两个参数,可以实现CPU资源的弹性burst。又例如阿里云突发性能实例,通过CPU积分来保证计算性能的实例规格,适用于平时CPU使用率低,但偶尔有突发高CPU使用率的场景。

参考资料:突发性能实例

突发性能实例概述 - 云服务器 ECS - 阿里云

关于垂直扩缩容更多内容可以参考GKE的 VPA (vertical-pod-autoscaler):https://cloud.google.com/kubernetes-engine/docs/concepts/verticalpodautoscaler

方法三:非线性映射--全链路评估

大型互联网服务,典型如电商交易系统,业务场景多、业务之间存在依赖性、业务服务规模大。已经很难按应用单独评估系统容量,需要在全链路场景压力下,进行整体的容量评估。

阿里云的容量规划服务,提供了全套服务,具体包括:

  • 服务规划,提供业务流量分析、数据容量分析、消息容量分析、数据库容量分析、集群容量分析;
  • 服务规划后执行,提供全链路压测方案、场景流量配比以及调度方案、限流降级方案、演练方案。

全链路评估的核心价值:帮助客户探测云上系统最佳压力、极限压力、破坏压力点,并进行降级、限流保护。采用全链路评估尤其适合大规模、复杂的场景应用。

参考资料:容量规划服务

阿里云上稳定性保障服务-容量规划服务

方法四:容量预测--自动调配

相对方法1、2、3,方法4 对未来容量的变化不做事前精准评估,基于系统负载均衡、系统QPS水位监控,进行自动化资源交付,包括自动水平扩容、缩容、跨规格实例交付等。例如阿里云弹性容器实例ECI支持多规格实例交付。阿里云运维编排服务OOS 提供的云上自动化运维服务,能够自动化管理和执行任务。客户可以通过模板来定义执行任务、执行顺序、执行输入和输出,然后通过执行模板来完成任务的自动化运行。OOS支持跨产品使用,您可以使用OOS管理ECS、RDS、SLB、VPC等云产品。

参考资料:弹性容器实例

阿里云帮助中心-阿里云,领先的云计算服务提供商

运维编排服务

什么是运维编排服务 - 运维编排服务 - 阿里云

综上,从业务需求到资源容量规划再到资源容量执行的过程,可以概括为图3所示这样的过程。

图3-需求到容量执行

四、资源购买量落地选购方案

当明确了资源购买量后,落地具体的选购方案就是如图4所示,在业务发展时间轴线上,确定性地交付算力资源。

图4-业务发展过程确定性算力资源交付

正如上一篇《三种典型场景下云上虚拟IDC(私有池)选购指南》介绍:业务资源交付有日常稳定性资源需求、日常弹性资源需求、突发资源需求。企业需要根据自身业务发展特征,具体资源需求,选择合适的资源选购方案,实现节约成本和资源确定性交付。例如:周期性资源需求、偶发资源需求、特定时期的资源需求,可以选购弹性资源保障相关产品服务。详细的容量规划到最终落地选购方案,可以直接参考该文。

企业业务上云后,需要进行资源容量规划,阿里云提供了丰富的产品能力支持业务容量精准评估灵活选购,特别是基于资源保障服务,如弹性保障、立即生效容量预留等服务,支持资源确定性交付,有力保障业务发展的连续性。

原文链接
本文为阿里云原创内容,未经允许不得转载。 

云计算企业上云后需要避免的几个错误

随着云计算的快速发展,越来越多的企业选择了上云。但企业上云后,存在一定的风险,很多刚上云的企业往往是不知的。这里我们结合网络上相关信息,给大家汇总了几个企业上云后需要避免的错误,希望... 查看详情

云计算企业上云后需要避免的几个错误

随着云计算的快速发展,越来越多的企业选择了上云。但企业上云后,存在一定的风险,很多刚上云的企业往往是不知的。这里我们结合网络上相关信息,给大家汇总了几个企业上云后需要避免的错误,希望... 查看详情

如何实现企业上云

企业上云解决方案:(1).访谈、调研上云解决方案(2).环境准备、架构设计(3).部署实施、数据迁移、应用迁移(4).业务上云、测试验证(5).优化诊断(6).项目验收、结项、总结回顾云计算数据中心业务应用系统迁移采... 查看详情

2022-07-10企业构建云原生应用上云知识库最佳实践

本课程从云原生时代大背景下分析应用上云带来的的优势与对业务开发人员带来的挑战,从而说明构建业务-应用服务上云知识库的重要性与必要性;主要根据知识库建设的通用性原理,从知识生产到消费再到知识再... 查看详情

实践分享丨构建云上私有池(虚拟idc)的5种方案详解

简介: 云上私有池系列终篇终于来了,本文将重点介绍构建云上的私有池(虚拟IDC)的多种方案和各自的优缺点,并给出相关的性价比优化建议。本文作者:阿里云技术专家李雨前摘要围绕私有池(... 查看详情

微服务上云后本地如何联调?(代码片段)

...天给大家带来云原生实战系列的第三十五篇,微服务上云后本地如何联调?当我们将微服务上云以后在开发过程中会遇到这样的场景:生产者服务部署到了云上,消费者服务还处于开发阶段,现在开发人员想... 查看详情

微服务上云后本地如何联调?(代码片段)

...天给大家带来云原生实战系列的第三十五篇,微服务上云后本地如何联调?当我们将微服务上云以后在开发过程中会遇到这样的场景:生产者服务部署到了云上,消费者服务还处于开发阶段,现在开发人员想... 查看详情

微服务上云后本地如何联调?(代码片段)

...天给大家带来云原生实战系列的第三十五篇,微服务上云后本地如何联调?当我们将微服务上云以后在开发过程中会遇到这样的场景:生产者服务部署到了云上,消费者服务还处于开发阶段,现在开发人员想... 查看详情

家电上云后,智能家居如何构建场景化应用

...驱动,AIoT企业如何具备持续的商业化能力?本文分享自华为云社区《【云享·伙伴】第8期:家电上云后,智能家居如何构建场景化应用》,作者:华为云社区精选。清晨闹钟响起,窗帘自动拉开,... 查看详情

稳定性实践:容量规划之业务场景分析

上期文章我们从整体上介绍了极端业务场景下,如何做好稳定性保障工作。今天,我们结合电商大促这个场景,来看一下容量规划这项工作。稳定性保障的一个难点是我们要面对一个非常复杂的因素,那就是业务模型,或者叫用... 查看详情

最佳实践丨三种典型场景下的云上虚拟idc(私有池)选购指南

简介:业务上云常态化,业务在云上资源的选购、弹性交付、自助化成为大趋势。不同行业的不同客户,业务发展阶段不一样,云上资源的成本投入在业务整体成本占比也不一样,最小化成本投入、最大化业... 查看详情

微服务项目实践之中建项目

导读:本文介绍了中建项目上云的过程,包括原有业务架构分析、迁移目标制定和迁移方案制定,上云的相关流程和规范。详细说明了上云后的部署形态和微服务优化分析。1.中建项目简介:  中建项目全程是“用友建筑分公... 查看详情

人力资源中的aop是啥意思

...测试”作为专门为人才管理设计的诊断型工具,经过企业实践发现并总结了与人才管理有关的一系列核心要素:目标导向、影响感召、耐心合作、精确服从等,再通过对这些方面的针对性评估,清晰勾勒出个体在职场中的各种特... 查看详情

云服务器都能做啥?

...,对于云服务器主要承载几个侧面的工作,功能层面:为企业提供IaaS层硬件资源,包含数据的分布式存储、分布式计算等;资源层面:提供资源整合动态管理,为PaaS层面提供相关资源共享服务,对比物理服务器而言对于企业用... 查看详情

2022-07-10企业构建云原生应用上云知识库最佳实践

本课程从云原生时代大背景下分析应用上云带来的的优势与对业务开发人员带来的挑战,从而说明构建业务-应用服务上云知识库的重要性与必要性;主要根据知识库建设的通用性原理,从知识生产到消费再到知识再... 查看详情

如何「场景化」的企业上云

...理等云服务行业”,混合云成为产业内众多服务商和企业关注的重点。自混合云概念出现以来,已有超过十年的历史。初期的混合云基本只是云环境之间的简单连接,其能力和价值并没有超出传统公、私有云的范畴。... 查看详情

社区分享丨jumpserver在云智天下多数据中心的应用实践(代码片段)

...周正军分享了题为《JumpServer在云智天下多数据中心应用实践》的演讲。以下内容根据本次演讲整理而成。成都云智天下是一家专注互联网小镇和智慧城市建设运营的高新技术企业。依托强大的通信网络、广电网络、互联网及物... 查看详情

简信crm分享:企业实施crm的策略有哪些?

简信CRM分享:企业实施CRM的策略有哪些?CRM系统(客户关系管理系统)是一个旨在改善企业与现有客户的关系,寻找新的潜在客户,并赢回以前客户的系统。CRM系统可以通过促进客户信息收集、整理和管理的软件来实现。随着市场环... 查看详情