三年节省4419万元,一场IT降本增效的沙盘演练

数智前线 2024-06-11 17:43:03

野蛮生长的阶段已经结束,开始进入存量竞争时代,IT的降本增效将是未来很长一段时间的主线。

文|游勇

编|周路平

IT支出作为互联网公司最大的成本,在数智化进入深水区和存量竞争的背景下,如何让IT降本增效变得更加迫切。

以前,大量企业的业务高速增长,发展的红利使得很多IT建设粗放式发展,很少人在意资源利用率的提升。但现在,野蛮生长的阶段已经结束,开始进入存量竞争时代,IT的降本增效将是未来很长一段时间的主线。

01

一场IT降本增效的沙盘演练

从物理机到虚拟机,再到现在的容器化,IT基础架构这些年一直在朝着敏捷、弹性、稳定的方向演进。而这些新的IT技术和架构到底带来了怎样的效果,一直是行业密切关注的话题。

不久前,全球知名独立咨询机构Forrester访谈了多位腾讯云容器服务TKE的客户,并且基于访谈信息,采用Forrester研发的TEI(Total Economic Impact)方法论,发布了国内首份容器服务总体经济影响报告。TKE是基于原生的K8s容器编排引擎,结合腾讯云的计算、存储、网络等基础设施打造的一个企业级的PaaS服务。

为了验证这套模型的效果,Forrester模拟了一家年营收4.5亿元左右的企业。这家企业的特点是业务范围覆盖全国,技术团队规模在百人以上,计划在三年时间完成90%以上服务和应用的容器化改造。

这场沙盘演练围绕着企业基础IT建设普遍关注的几个核心指标——基础设施成本、运维成本、应用开发的效率以及系统稳定性,在容器化之后,这些方面都得到了大幅提升。

首先是计算资源的成本节省超过70%。由于TKE容器的弹性调度能力,使得企业不用再购买备用机器,可以根据业务按需调用,而且容器化程度越深,TKE用量越大,机器节省的成本也逐年增加,三年累计收益达到1771万元。

其次是日常运维负担降低了50%以上,峰值运维负担降低98%。TKE使运维人效成倍数增长,将耗时多日的扩缩容工作转化为分钟级的自动化、平台化操作。这部分的收益在三年时间为914万元。

一位协同办公行业的业务副总经理直言,“我们的扩容效率提升非常明显,能做到一小时扩容10万核,即从提出申请到扩容全部完成只需要一个小时,如果除去其中申请和协调资源的时间,利用TKE扩容只需要十分钟。”

再者是应用开发效率的提升。容器的标准化和易迁移特性,让研发不用操心服务器的操作系统差异,能实现新应用、新功能的快速部署上线,迭代效率提升90%以上。对于一家拥有90名研发人员的组织而言,这部分在三年时间产生的收益达到3092万元。

最后是稳定性的收益,通过自动化预测、告警与修复故障,每年服务中断时间减少42.6小时,由此得以增加的运营利润达到183万元。

也就是说,这家年营收4.5亿元的复合式组织,三年内的总收益达到了5960万元。而该组织需要为此付出的成本——包括订阅费、部署实施费、学习成本是1541万元。两者相减,得到的净收益达到了4419万元,投资回报率高达287%。

而Forrester经过一系列严谨的测算之后,通过抽象提炼,最终形成了一套有普适性的模型。腾讯云也基于这套模型推出了容器服务的ROI计算器,客户只要输入各自的业务真实情况,能非常直观地看到三年后带来的收益。

这个沙盘演练的效果,在降本增效成为企业主旋律的当下,提供了一个非常有价值的参考。

更关键的是,这套模型并不是简单粗暴的叠加计算,而是充分参考了各行各业的真实客户在使用TKE容器化服务前后的特点和效果。

一是充分考虑了容器化改造的不同阶段。容器化比例没有简单粗暴地设计在一年内完成,而是逐年提高,这也符合目前企业对容器化改造的一个特点,循序渐进,逐步看到效果。

二是对收益和成本进行了细致的拆分。比如复合式组织设定了每年有三次大型流量峰值,每次峰值需要投入32个小时进行提前扩容准备;同时对运维人员和研发人员的时薪做了不同设计,甚至把薪资涨幅也都设计在内。而且也考虑了企业进行容器化改造产生的实施成本和技术人员对K8s容器技术的学习成本。

三是未将不可量化的收益纳入其中。企业在进行云原生容器化改造后,其实不仅有可量化的收益,也有很多不可量化的收益,包括客户满意度的提高,技术团队更流畅的协作和工作状态的提升等。但这套模型并没有将不可量化的收益统计在内,而这些效果确实在诸多企业的实际业务中真实存在。

甚至考虑到企业在现实业务中的复杂性和各种风险因素,Forrester还给每项收益下调了10%,成本则调高了10%。但即便在如此严苛的条件之下,容器化和非容器化的收益对比依然非常明显。

02

云原生已经成为共识

Forrester的这份研究报告背后,让外界进一步看到,以K8s容器为代表的云原生技术能够有效疏解企业在IT降本增效、弹性伸缩方面的心头之痛。

此前,有机构统计过一个很残酷的数字:国内数据中心CPU利用率仅为10%左右。IT资源利用率不高的背后,与传统IT架构的特性有很大关系。不管是物理机还是虚拟机,其应用、操作系统和基础设施之间很多是紧耦合的关系,不够弹性。

在单体机架构下,每台服务器只运行一个应用程序。后来的虚拟机虽然允许一台服务器运行多个应用程序,在一定程度上解决了服务器资源浪费的问题,但每台虚拟机都有自己的操作系统,会消耗大量与计算不相关的资源,不仅造成了浪费,而且启动速度也很慢。

腾讯当年在业务全面上云之前,也遇到类似的难题。每个业务部门为了应对突发的流量,在升级服务器资源时会留出资源缓冲区,这是IT部门的常规操作。但当所有的缓冲区叠加在一起,就形成了大量的闲置资源浪费。

而对于业务还在不断增长或者业务波峰波谷比较明显的企业而言,这样的痛感来得更加真实。

现在,云原生的架构能实现系统的敏捷部署、弹性扩展、动态迁移、故障自愈等。而容器作为云原生的代表性技术之一,实现了应用与运行环境的解耦。相比于物理机、虚拟机,一个容器就是一个应用程序,它将所有文件配置以及运行所需要的必要文件打包到一起,这意味着它只打包了计算环境所需要的内容。而基于开源容器编排引擎K8s,能够实现了容器的自动部署,扩展和管理。

其优势已经非常明显,比如解决异构环境一致性问题、更高的机器资源利用率等,几个简单的命令就可以在单机上管理容器。比如,它可以自动调度和自动修复,可以运行在k8s集群中的任一节点,而且某一个服务器挂了,可以自动调度到另外一台主机上运行,无需人工干涉。

另外,成本上也有优势,容器按量计费,Pod销毁了就不收费,计费粒度是秒级的,但虚拟机不一样,它的生命周期更重一些,弹性能力也比容器差,计费粒度也更粗。

一位信息通信行业的云服务运维负责人透露,他们在使用了腾讯云容器服务TKE之后,业务高峰期的扩容只需要不到五分钟时间,以前两三个人加班加点才能完成的工作,现在只需要一个人就能操作。

如今,以容器、微服务等为代表的云原生技术已经成为企业技术选型的共识。一位管理软件的高管告诉数智前线,客户现在都默认你用的就是云原生方案,已经不需要再去特别强调的事。

在Forrester 2022年全球云基础设施调研中,72%的中国云决策者表示,使用以云原生为代表的新计算架构进行现代化改造将是其组织未来12个月的技术架构和交付优先事项之一,而世界其他地区的这一比例为53%。

应用容器化率也在逐年攀升。2020年容器超过虚拟机成为企业部署计算的最小单元。据Gartner预测,到2025年,85%的组织将在生产环境中使用容器。

腾讯作为国内最早上线容器服务TKE的企业之一,这次与Forrester联合发布业内首份容器经济影响报告,并推出ROI计算器,将让各行业进一步看到直观、系统地看到云原生带来的价值,从而加速容器化率的提升。

其实早在2016年,腾讯就开始启动基于K8s的TKE项目。到目前为止,腾讯云TKE已经为上万企业客户提供容器化平台,单集群支持上万个节点。除了腾讯自己,包括快手、小红书也接入了腾讯云的容器服务,都取得了实打实的效果。

今年4月,腾讯云入选Gartner容器客户之声亚太区“卓越表现者”象限。在8家获评的容器管理厂商中,腾讯云成为唯一入选的中国企业。

03

TKE如何帮助企业降本增效

其实,在Forrester产出这份报告之前,腾讯云TKE已经在腾讯内部和外部客户的业务中得到了检验。

2022年,腾讯宣布完成了自研业务全面上云,成了国内最大的云原生实践。

但在自研业务上云初期,腾讯也经历过很多企业都面临的困境,比如习惯“堆机器”,把物理机原封不动搬到云上,或者直接把容器当虚拟机用,整个架构和代码不需要任何的改造,但违背了云原生的初衷,云的价值完全没有发挥出来。尤其是当实例变得又大又复杂时,没法快速启停,影响了弹性扩缩容的效率。

但很快,腾讯基于腾讯云TKE,开启了真正的云原生之旅。

腾讯一开始先将离线业务容器化,比如基于滚动的发布,对自研业务的灰度测试非常关键,比如动态路由能力,实现路由的自动化。然后是在线业务容器化,实现自定义工作负载,保证Pod容器的中断时间控制在一秒以内,实现原地无感知的升级扩容。

过去几年的努力,腾讯内部95%的业务都放在可调度的公共集群里。而腾讯云TKE的落地规模已经超过5000万核,累计为腾讯节省了数十亿元成本。而且,即便面对腾讯如此庞大且复杂的业务体量,TKE平台从始至终没有遇到过大的故障。

对于还在观望的企业而言,腾讯自己提供了一个很好的云原生转型范本。

作为国内最大的房产中介平台,贝壳一直对新的IT技术保持着非常高的热情。相比于那些不敢用、不会用的企业,贝壳在做云原生技术架构的改造前,内部就已经进行了容器化改造,并且与腾讯云TKE有一些小规模合作。但起初用的是TKE普通节点,本质上是在虚拟机上部署一些托管的K8s能力,效果并不明显。

2023年初,贝壳打响了云原生攻坚战,提出了“4321”的技术口号,其中4指的是计算集群利用率提升到40%。

“容器化和云原生,是提升利用率,尤其是提升在线业务利用率的一个技术达成路径。”贝壳云技术中心系统研发部高级经理杨菁伟说。

很快,贝壳接入了腾讯云TKE的原生节点,其核心还是怎么弹性扩缩容,自动化部署以及提高已有资源的利用率。TKE原生节点帮助贝壳解决了三个核心问题:

首先是Request配置。在创建K8s集群的工作负载时,通常需要配置合适的资源,Request是下限,指的是容器需要保留的最小资源量;limits是上限,一个容器使用的最大资源量。以前都是客户根据经验自己配置,很容易估不准,大家习惯将申请量设置得较大,造成资源闲置,这是一个非常普遍的现象。

腾讯云TKE原生节点的“成本大师”推出了Request智能推荐工具,可以通过分析客户业务实际利用率和历史数据,给客户推荐最合适的Request配置,确保资源得到合理利用。

其次,在节点放大之后,容易遇到稳定性问题,考验TKE资源如何调度。比如K8S集群有时会出现调度不均,某些节点负载过高,而其他节点负载又很低。人工调度往往不及时,也很麻烦。腾讯云TKE原生节点,支持根据客户节点的实际负载进行智能调度。包括支持“节点动态放大”,根据实际需求,自动增加CPU和内存资源。

三是在线和离线业务能否混合部署。在线业务对资源的要求高,但变化会比较明显,离线业务便静态,及时性不高。要想集群24小时运转,就需要把在线和离线业务混在一起运行。

同时,腾讯云TKE在内核层面实现资源隔离,允许高低优任务共存,高优任务可抢占低优资源,确保在线业务不受影响。

最终,在TKE原生节点的支持下,贝壳的资源利用率从去年年初的峰值不到25%,到年底提升到了40%。

“容器不是终点,它其实是一切的起点。”杨菁伟说,容器化为贝壳真正迈向云原生打下了基础,未来将推进两件事:一是让自建的容器逐渐迁移到公有云的底座上,增加腾讯云TKE在贝壳的算力供给比重;二是针对应用以外的组件进行云原生的适配,实现数据的云原生和缓存的云原生等。

在线教育平台作业帮也是一家非常典型的客户。作为一家月活用户约1.7亿的在线教育公司,学生学习的时间集中在周末和放学之后,波峰波谷非常鲜明,高峰时段的流量是平时峰段的20倍,是低峰时段(凌晨到5点左右)的上百倍。

所以,作业帮对资源弹性调度的诉求非常高。作业帮从2020年开始将部分业务逐渐接入腾讯云容器服务TKE,涉及数千业务应用,数十万计算核数。通过HPA机制、离在线混部、共享GPU等腾讯云TKE提供的一套整体解决方案,作业帮的节点平均CPU利用率从10%提升到30%,成本下降40%,接口响应提升10%。

当然,除了被广泛使用的TKE原生节点,腾讯云也针对企业Serverless和大模型的需求,衍生出了TKE超级节点和SCF on K8s等新的产品形态。

IT的降本增效从来不是一朝一夕能做完的事,需要企业根据自身业务特点持续地推进和优化,当然也需要技术服务商及时地捕捉和响应市场的需求。

0 阅读:1

数智前线

简介:关注数字化、云计算、智能硬件。