锐捷先见先行,运维“乐享”其成

大数科技观察 2023-04-24 10:42:10

锐捷运维大杀器来,运维人员有福了。

运维该“减负”了

运维苦、运维累、运维随时要奔溃。

前两天知乎上有一个热榜是一个企业要招一个运维,开始出价3500,后来涨到了5000,还有各种补贴,就是招不到。为什么呢?看看要求,会修各种打印机、电脑、考勤机、投影仪、网络、监控等。

某种意义上,社会对运维的认知就是,运维=打杂。干着最杂、最累的活,事实上也是最重要的工作,却有苦说不出。所以才有那么多段子来调侃运维,拜关公、拜服务器,而且得脱掉上衣。

运维该减负了,但是从何做起呢?

运维跟医生很像,医生治病救人,运维护系统保运转。医生的成长过程是不断积累经验,所以才有医生越老越吃香的说法;其实运维也是,解决的问题越多,解决起来问题就越快。医生借助各种工具进行更快速、更准确的诊断,进而为病人治疗;运维借助各种技术更快、更精准的判断故障,从而解决系统问题。

伴随时代的发展,我们发现,越来越多的年轻医生站上了关键岗位,同样的,运维人员也越来越年轻。促使这一现象发生的根本原因是什么?

事实上,无论是医生的诊疗工具还是运维的诊断工具,都在不停的演进,从望闻问切靠医生经验,到借助工具一目了然,凭借的是科技进步的力量。技术的进步正在快速弥补人员成长速度慢、诊断不准确等问题。

日前,锐捷以“先见先行,乐享其成”为主题,发布全新乐享智能运维管理平台(以下称“乐享平台”),致力为运维减负,为企业增效降本,助力运维小白成为老医生,助推企业快速发展。

和市面上的同类产品相比,乐享平台有什么亮点?大同小异,还是全新理念?下面我们详细来说一说。

乐享的“四板斧”

去医院,你说头疼,医生开一堆化验单让你去检查,然后分析结果,最终判定原因,开方,并告诉你以后尽量避免做什么。

乐享平台的基本逻辑也是这样,检查——掌握各系统的基础数据;分析——判断逻辑关系,研判问题出在哪里;开方——出具判断结果,并给出操作建议;告警——为下一次打预防针。

乐享平台的核心能力或者说核心价值分四块:以指标体系为核心的全域资源监控、以风险预防为核心的健康检查、以用户体验为核心的业务监控以及化繁为简和千人千面的工作中心。一项一项拆解,看看乐享平台较同类产品究竟有什么不同之处?

全域资源监控,统一监控、自动发现、智能关联。统一监控和自动发现,市面上的产品几乎都有这项功能,乐享平台的不同之处在哪里?

一、不是泛泛的监控,而是提炼其中的核心。比如描述一个网络设备的运营状态,核心就是看三个指标:带宽饱和度、带宽利用率、传输错误率。只要这三个指标有问题,设备一定出问题了,锐捷称之为黄金指标体系。

二、IT环境中,所有设备都是相互关联的,关系网极其复杂,乐享平台会把这其中的关系梳理出来。这样做的价值显而易见,如果某一个指标超标了,比如CPU的利用率超过90%,肯定是系统出问题了,通过依存关系梳理很快就能判断故障点。除此之外,乐享平台还提供相应的操作建议,而这些建议都是来自于专家团队。

三、提前预知可能造成的风险,把影响降到最低。当某一个故障产生后,乐享平台会把可能对业务系统造成的影响清晰呈现,进而做到从容应对,有的放矢。

四、告警聚合。网络里经常有告警风暴、故障风暴,比如某栋楼断电了,100台服务器,可能会收到几百个告警,这样的问题其实经常出现。乐享平台会通过卡点聚合算法把这些告警自动聚类,让运维人员只需要处理少数几个告警就可以解决所有问题。

这里特别强调一下自动发现,在我看来,自动发现比统一监控更难,因为设备太多了,每天都在新增,这可并非一日之功,需要一点点去积累。目前,锐捷可以说是业界积攒最全的,而且一旦出现新的设备,会马上去跟进。

健康检查,预防为主,运维工作前置。

IT运维团队有一项重要的任务是巡检,其实很多行业都有,巡检的目的就是把风险扼杀在摇篮,但是怎么做是有讲究的,过去做的很多工作都是无效的,只能看出巡检当时的一个情况,连下一秒都不能判断。

乐享平台是怎么做的呢?三个库:一、风险识别库,扫描就会扫出异常;二、风险分析库,风险等级如何,一目了然;三、风险处置库,对应的问题应该怎么解决。一次配置,自动执行,每天都会汇报。

以医院最常用的Oracle数据库为例,常见故障就20多种,对应有可能是什么原因导致的,以及应该怎么处理,就是那些,哪怕是个运维小白,学习一段时间也能快速处置。

从检查到分析,到处理建议,乐享平台形成了一个闭环。本质就是把运维工作前置,去做风险预防,而不是做问题处理。

业务监控,模拟用户真实场景。

了解用户业务使用情况最好的方式就是亲自下场。乐享平台使用流量采集技术,7x24小时提炼分析真实用户访问IT的数据,每个区域、甚至每个用户当前的体验都实时掌握,一旦出现问题,就会通过全域资源监控、健康检查的一系列手段进行分析、处理,让用户始终保持良好的体验。

工作中心,从千人一面到千人千面。

通过低代码、“拖拉拽”就可以灵活定义自己的工作台。比如,运维管理者可以看到有多少IT设备,有多少问题要处理,有多少风险,风险的闭环率是怎样的,每一类的资源现在的运维情况是怎样的。对于工程师,可以快速了解当前负责IT对象,有多少故障要处理。

透过乐享平台不难发现,其最大的不同在于打破了过去运维只是横向监控资源的局限,改为了立体化的全方位的监控,也正因为此,对运维管理来说,乐享平台可以说是一次革命,“先见先行”绝不是一句空话。

运维,锐捷的硬实力

为什么锐捷会把重心放在这些维度?锐捷有能力做这件事吗?

回答前者,这些问题是用户最关心,也是最急迫的。运维人员苦已由来已久,这么多年,不是没有工具来帮助他们,而是没有足够好的,能够与时俱进的工具来辅助。

根据知名组织对全球超过1500名专业IT从业者的调研显示:在IT运维管理团队TOP关注与挑战中,运维效率如何提升以及如何减少用户抱怨与投诉仍占据了75%;而在与工具相关的TOP关注与挑战中,如何整合多工具与打通数据,以及如何减少无效告警、尽快确定故障原因仍占据了78%。

事实也确实如此,传统的运维工具更多精力放在了IT资源的监控,少有关注业务的;不同的设备有着不同的运维工具,割裂;运维工具更多起的是告警作用,而不给解决办法。

回答后者,锐捷不是新手,做全面运维管理已经十年。2012年,锐捷将运维工作从网络延伸到服务器、数据中心、数据库;2013年,加入对无线网、存储、虚拟化的监控;近些年,增加对大数据、云的监控。与时俱进,一步一个脚印。

所以,如今锐捷推出乐享平台不是空中楼阁,而是产品自我进化的必然结果,这其中体现着锐捷对于运维的理解和洞察。

正如骆杰所说,乐享平台区别市面产品最大的不同在两个维度,一是关系洞察,只有熟知脉络才能快速分析原因;二是基于场景化思考问题,站在用户的视角去分析问题,从用户视角去研发产品。

减负不止一半

全面革新的乐享平台带来的效率提升是非常明显的。据骆杰介绍,他们国家电网的一个客户,过去接一个数据中心的运维需要7个人,而现在只需要三个人,外加乐享平台就足够了。

事实上,锐捷运维平台的领先性不是今天才有的,截至当前,锐捷网络运维产品已广泛服务于3000多家行业客户,在部委客户市场占有率超过65%,并成为政务外网、内网首选品牌;在医疗行业品牌度排名第一;超过1000家高校客户正在使用锐捷的RIIL产品。

据IDC统计,2019年,锐捷在中国IT综合运维软件ITIM市场占有率第一;来自CCW的统计显示,2016至2020年,锐捷在中国IT运维管理软件市场份额位居首位。

总结全文,运维减负不能是一句空话,科技才是第一生产力,而科技进步离不开广大运维工具厂商的共同推动。新一轮的运维革命已经打响,锐捷率先拔剑,相信很快会有厂商跟进。运维管理是大市场,而且是高门槛,不怕卷,就怕不为用户考虑的卷,毫无意义。

锐捷历经十多年的积累有了今天的成绩。未来,锐捷也将与时俱进,不断推出更好的产品帮助企业增效降本,让运维人不再那么苦。

微信搜索大数网,了解锐捷乐享智能运维管理平台更多信息。

0 阅读:6

大数科技观察

简介:专注新技术推广,关注云计算、大数据、移动互联等。