三问CIPU,阿里云的葫芦不卖“药”

洞见新研社 2022-06-16 21:44:55

作者 | 魏启扬

来源 | 洞见新研社

不久前结束的阿里云峰会上,阿里云释放了一枚“重磅炸弹”,发布了一款自研的云数据中心专用处理器,这款处理器取名为CIPU(Cloud Infrastructure Processing Units 数据中心专用处理器)。

很多媒体都对CIPU的功能特点进行了非常详尽的解读,我们就不再赘述。

简而言之,CIPU是一颗云端处理器,向下接入物理的计算、存储、网络资源,快速云化并进行硬件加速;向上接入飞天云操作系统,管控阿里云全球上百万台服务器。

图源:阿里云官方

无论是阿里云公布的数据指标,还是业内专家的评价,都指向一个结论——CIPU很NB,它让中国在争取云计算的定义权中,处在有利位置。

“阿里云提出的CIPU技术,把上一代计算架构的中心完全打破了,在基础技术上实现了世界领先,跟国际巨头站在同一个起跑线上。”

——中国工程院院士郑纬民

不就是一颗芯片嘛,CIPU到底有啥特殊,CIPU对于阿里,对于整个云计算行业而言,又意味着什么

01,已经有CPU了,为什么还需要CIPU?

一般来说,驱动创新的力量有两个,要么是解决已有问题,要么是创造新的机会。

CIPU诞生则是这两股力量兼而有之。

我们先来看看云计算发展到现在到底出了什么问题。

阿里云智能总裁张建锋(花名:行癫)将云计算过去十多年的发展总结成两个阶段:

第一阶段是分布式和虚拟化技术替代了大型机,满足了当时企业因业务扩张而带来的算力弹性需求;

第二阶段出现了资源池化技术,通过把计算和存储资源分离,然后再规模化编排和调度,形成了超大规模的计算和存储资源池。

这两个阶段,CPU在云计算体系架构中都是无可争议的C位,可随着以大数据应用为代表的数据密集型场景越来越多,海量数据在不同系统中搬运计算,CUP维持”C位”逐渐变得“力不从心”,这种以CPU为中心的传统架构的短板也暴露出来了。

首先是慢。

在分布式体系架构下,很多大型应用会分散在多个子系统中去部署,这就对各系统之间的延迟提出了很高的要求,此外,由于大数据应用的增长,数据中心内部数据的迁移流量也在增大,这对网络带宽又是一个挑战。

其次是超大规模的复杂管理。

这里既包含了云计算超大规模基础设施的硬件管理,也有云内部超大应用、复杂应用的管理。像阿里云在全球27个国家和地区、84个可用区、2800个网络节点,运营着上百万台服务器,服务着全球400多万客户,如此大的规模,其中的管理难度和成本超乎想象。

矛盾点在于,CPU最开始时并不是为了搭载云操作系统而设计的,CPU的优势是单核性能强,在指令性计算任务处理时,性能优异,但对数据处理并不擅长,数据吞吐能力弱,一旦遇到分布式大数据系统就要消耗大量的资源用于数据搬运。

针对上述短板,英伟达和英特尔分别给出了DPU和IPU两个解决方案。

DPU做的是集成加速平台,即对CPU部分功能进行卸载,优化,减轻CPU的负担,侧重解决数据迁移带宽不够用,速度“慢”的问题。

IPU强调虚拟化云化能力,通过网络虚拟化、存储虚拟化、网络存储管理以及安全等功能,加速网络基础设施,释放CPU核来提高应用程序性能,侧重解决“超大规模复杂管理”的问题。

很明显,无论是DPU还是IPU,都不是完美的解决方案,阿里云已经是个成年人了,它不做选择题,CIPU就是在这样的背景下诞生了,既能云化虚拟化管控数据中心,又能解决数据迁移带宽的问题。

阿里云官方公布,基于CIPU和飞天云计算架构体系,在通用计算、大数据、人工智能等核心场景的计算测试性能:

●在通用分布式计算领域,Redis性能提升了68%、MySQL提升了60%,Nginx提升了30%;

●高吞吐类的互联网业务上云之后,比自建物理机的集群吞吐量提升了30%,业务高峰期延迟下降了90%;

●在大数据和AI等计算与数据双密集场景下,相比传统的TCP网络,弹性RDMA高性能网络的吞吐能力提升30%以上;

●云原生方面,容器启动速度快了350%,在Serverless 场景下6秒可拉起3000个弹性容器实例。

阿里云在CIPU的研发过程中采用了“软件定义+硬件加速”的思路,将其定位为飞天云操作系统的专用处理器,如此一来,不但通过硬件提高性能解决云计算发展中遇到的痛点,还能通过软件提供灵活性,在系统、应用和资源的管理上大大加强。

02,云厂商那么多,为什么是阿里云发布CIPU?

第二问题最直接的答案是阿里云自身业务需求的驱动。

上文有提到,如今阿里云的IDC规模已经极为庞大,在全球范围内管理着上百万台服务器,阿里云遇到的问题肯定比99%的云厂商都要多,加之行业内还没有出现公认的“完美方案”,而阿里云恰恰又有解决上述问题的能力,研发CIPU也就顺理成章。

早在2016年,阿里巴巴内部就开始了技术长征,2017年发布了一个叫“神龙卡”的设备,用来应对传统CPU计算架构系统难以解决的问题,阿里云后续还对“神龙卡”进行了多轮迭代,逐渐完善了编排调度、硬件加速等更多能力,以“神龙卡”为基础,阿里云又进行了一次从0到1的创新,即我们现在看到的CIPU。

事实上,在过去的几年里,CIPU已经承受过像“双十一”、12306春运抢票这种体量的性能和压力测试,甚至有一些阿里云的客户提前“尝鲜”,使用过基于CIPU的云计算服务了,虽然用户层面对底层硬件层的感知不明显,但阿里云的工程师们心里还是很清楚,“自己用过觉得好,才是真的好”。

在阿里云自身业务的驱动之外,出于行业竞争的需求,也推动着阿里云去做像CIPU这样的创新。

比如亚马逊AWS推出了Nitro方案,早在2017年时就想用Nitro系统来取代以CPU为核心的计算架构体系。

从技术原理来看,Nitro与CIPU类似,他们的区别在于,Nitro将硬件芯片和软件系统集成到了一起,其外部形态就是一个盒子;而CIPU则由专用芯片和控制器构成,对接飞天操作系统,并对其进行管理。

张建峰在接受媒体专访时表示,“云计算越来越接近进入下一个时代了——全新的架构定义,全新的软件界面,硬件加速。”

张建峰讲述了云计算行业当前的现状,同时也暗喻着,在新一代主流云计算架构没有确定之前,这是一个难得的窗口机会,一个重新定义云计算的机会。

举个例子,一些做设计的用户在渲染时要用到很高的算力,于是会花很多成本用在配置电脑上,但如果用到云电脑,就可以节省很大一块前期投入,此外,用户的数据全在云上,有加密、熔断等保护机制,比存在本地硬盘还要安全很多。

此外在办公、游戏、娱乐等很多场景中,云电脑也都有着自己的独特优势。

想象一下,当我们不再需要物理主机时,云计算市场将会发生怎样变化?

阿里云发布CIPU,努力构建新一代的云计算架构体系,从表面上看是与AWS这样的友商在技术层面的针锋相对与“明争”,实则是关乎未来生存与发展的“暗斗”。

03,说得天花乱坠,CIPU能为阿里云带来什么?

阿里云在2022财年实现了成立13年来的首次年度盈利。

5月26日,阿里发布的2022财年的业绩报表披露,云业务同比增长23%,全年收入在抵销跨分部交易前和抵销后分别为1001.8亿元和745.68亿元,并且实现了11.46亿的盈利。

这只是阿里云的一个新起点,阿里云的野心远远不止于此。

此次阿里云在发布CIPU的同时,提出了“Back to Basic”战略,要重新回到云计算的本质。

如何理解?

对照着英特尔和微软联手的wintel联盟,苹果A系列芯片与IOS操作系统的组合,我们可以发现,就像鞋子要合脚一样,硬件和软件必须相互结合,才能让系统性能达到最佳。

阿里云过去在云计算的软件方面已经跑得足够远,足够快。

2009年,阿里云自研云技术操作系统飞天团队写下第一行代码,在飞天系统之下,阿里云此后又陆续构建了网络虚拟化洛神平台、计算虚拟化神龙平台、存储虚拟化盘古平台三大核心组件,目前已经拥有了比较完备的软件基础设施,如今配上能协调各方能力的CIPU,阿里云的追求的不再是计算系统性能的再上台阶,而是云计算下一轮技术主导权竞争的主动。

用张建峰的话来说,阿里云是“既要做英特尔,也要做IBM”。

在Back to Basic战略下,阿里云实际上形成了两个平台,一个是向用户提供大数据分析、AI等能力,满足产业互联网时代下用户的数字化转型与创新方面的需求;另一个是阿里云面向终端用户的“云钉一体”与低代码,为用户提供入口与快速开发的能力。

简而言之,阿里云要完成既能处理任务,也能处理数据的进化,不但能向用户提供资源,还能向用户提供能力。

过去基于分布式系统,云计算行业实际上建立的是一个可弹性售卖的系统,只要有能力做分布式系统的厂商,都能迈进云计算的大门,而如今随着CIPU的诞生,新的计算体系架构下,云服务的门槛实际上是被抬高了,于阿里云而言,其竞争力进一步加强,亦是阿里云在2020年提出的“做深基础、做厚中台、做强生态、做好服务”战略中“做深基础”的延伸。

另外一个维度,如果站在云计算发展史,亦或是新一轮全球科技竞争的大背景下,CIPU的发布或许有更深刻的意义。

郑纬民院士的评述是,“这是一件改变格局的事情,改变了原本由西方技术制定的游戏规则,让我国IT产业建立了全球领导力。”

最后总结一句,CIPU或许只是云计算漫长发展过程中的一小步,但一定能在中国云计算发展史中占据重要位置,同时也极有可能是阿里云的与友商拉开差距的开始。

1 阅读:9

洞见新研社

简介:专注商业与科技,在没人思考的地方,再深思五分钟。