作者 | 辰纹
来源 | 洞见新研社
大模型引发的链式反应开始传导到智算中心,2024年刚过,一批大型智算中心项目建成运营。
1月8日,中国移动智算中心(武汉)在武汉未来科技城开放运营,现建成1500P服务能力,到今年底计划扩容至6800P,成为华中地区规模最大的智算中心。
1月22日,上海电信在上海点亮“大规模算力集群暨人工智能公共算力服务平台”,计划2024上半年在上海规划建设到达15000卡,总算力超4500P,其中单池新建国产算力达万卡,预计成为国内首个超大规模国产算力液冷集群。
1月30日,中国联通人工智能创新中心成立仪式在京举行。中国联通长三角(芜湖)智算中心项目于去年11月24日开工。
2月4日,深圳开放智算中心点亮运营暨深圳市智慧城市算力统筹调度平台揭牌仪式举行,加快打造10万卡级别的超强算力集群。
有媒体统计,截至2023年底,全国有超30个城市在建或筹建带有“智算中心”的项目128个,其中83个项目有规模披露,超过7.7万P。
图源:半导体产业纵横调研
显而易见,智算中心项目的建设非常火热,大有“再不跟进,就OUT”了的趋势,然而在智算中心的实际建设和运营过程中,仍然有诸多问题待解。
01 智算中心建设,国企挑大梁智算中心当前的热度有相当一部分来自于国家政策的推动,特别是今年2月19日,国务院国资委召开“AI赋能产业焕新”中央企业人工智能专题推进会,进一步提升了行业对智算中心的关注度。
会议主要针对央企进行工作部署,要求央企把发展人工智能放在全局工作中统筹谋划,加快建设一批智能算力中心,开展AI+专项行动。
此次会议之前,北京、上海、广州等数字经济发达的城市已经出台了各自的地方政策来推进智算中心的建设。
比如,北京市提出“新建一批计算型数据中心和人工智能算力中心”;上海市提出“提出实施大模型智能算力加速计划;打造市级智能算力统筹调度平台,构建规模化先进算力调度和供给能力”等。
具体项目上,除了文章开头例举的那些大型项目外,北京还在近日上线了北京人工智能公共算力平台(上庄),作为人工智能基础设施,该平台将为各类创新主体提供普惠的公共算力服务。
既然是基础设施,智算中心建设的主体大多为地方政府,具体执行则由央企挑起了大梁,其中以电信、移动、联通为代表的通讯运营商响应最快。
据《IT时报》报道,最近半年,中国电信和中国移动者两家央企在AI服务器方面的集采金额超过百亿。
2月25日举行的2024世界移动通信大会(MWC2024)全球CEO圆桌论坛上,中国电信董事长柯瑞文透露,中国电信智算规模已经超11EFLOPS,未来将进一步提升智算规模和占比。
中国移动在此前的财报中披露了公司的算力规模,去年上半年时,智算算力为5.8EFLOPS,自有算力总规模达9.4EFLOPS,预计2023年底达11EFLOPS。
在上述央企之外,以百度、阿里、腾讯为代表的互联网企业以自身业务发展为基础,也加入到这股智算中心建设的热潮中,不但成为政府主导的算力基础设施的有力补充,还更好的推动了各类人工智能场景的落地。
图源:半导体产业纵横调研
根据工信部等六部门去年10月发布的《算力基础设施高质量发展行动计划》,截至2023年底,中国的算力总规模位居全球第二,达到197EFLOPS,其中,智能算力规模占比达到22.8%。到2025年,算力规模要超过300EFLOPS,智能算力占比要达到35%。
从目前的建设速度来看,这个目标有非常大的几率提前实现。
02 抢建智算中心,源于“算力焦虑”地方政府和各方企业如此卖力的建设智算中心,很大程度上源于“算力焦虑”。
一般来说,算力分为通用算力(基础算力)、智能算力和超算算力三大板块。
基础算力主要由基于CPU芯片的服务器提供,用于支持如云计算和边缘计算等基础通用计算。
智能算力则由基于GPU、FPGA、ASIC等AI芯片的加速计算平台提供,主要用于人工智能的训练和推理计算。
超算算力则由超级计算机等高性能计算集群提供,主要用于尖端科学领域的计算。
智算中心和传统数据中心最大的差别在于,智算中心通常与云计算紧密相关,强调资源控制和基础设施管理的灵活性,智算中心服务商负责硬件和部分软件工具的维护,客户拥有数据。
传统的本地数据中心则由企业自行管理和维护所有的硬件设施和数据资源。
这种区别在资本投入、资源部署、安全性、合规性和可伸缩性方面体现得尤为明显。
去年开始,在大模型的推动下,人工智能也迎来了属于自己的“文艺复兴”,众多大模型产品的发布,继而催生了整个行业对于智能算力需求的激增。
比如,一般的大语言模型训练,根据数据规模、检测效果、模型类别的不同,训练一次的算力需求大约为2-19PFLOS不等;
比如,人脸、语言识别的推理过程中,根据识别精度、并发数量等的不同,对算力的需求跨度可能从10GFLOPS-64TFLOPS;
再比如,智能驾驶为完成环境感知、决策避障、自车定位等功能时的算力需求大概为8TFLOPS。
特别是2月15日Sora发布,进一步加剧了行业的“算力焦虑”。
有专家测算,Sora的训练算力需求是大语言模型的上百倍,同时,推理阶段的算力需求也将大幅提升,Sora一次推理任务的数据量可达到大语言模型的数十万倍,由此产生的推理算力需求是大语言模型的成百甚至上千倍。
AI是任何企业,城市,乃至国家都不愿错过的风口,为了赶上这趟通往未来的列车,智算中心就是车票。
另外一个维度,站在城市经济和产业发展的角度,建设智算中心具有强大的资源带动能力。
中国信通院《中国算力发展指数白皮书(2023年)》显示,我国近6年累计出货超过2091万台通用服务器,82万台AI服务器,计算设备算力总规模达到302 EFLOPS,其中智能算力增长迅速,增速为72%,在我国算力占比超过59%。
国家信息中心的《智能计算中心创新发展指南》(下称《指南》)指出,“十四五”期间,在智算中心实现80%应用水平的情况下,城市对智算中心的投资可带动人工智能核心产业增长2.9至3.4倍,带动相关产业增长36至42倍。
长远来看,能卡位未来的大模型之战;短期来看,则能对地方经济有相当大的带动,智算中心遍地开花也就可以理解了。
03 建智算中心不难,难的是如何赚钱建设智算中心是好事,然而智算中心建多了,就不见得好了,特别是在没有非常明确的运营模式,盈利模式的行业背景下,过多的智算中心项目或成为诸多矛盾的来源。
在技术层面,行业实际上对智算中心的能力提出了具体要求。
算力生产方面,要具备多样化算力的供给能力,要能实现不同架构芯片的多元化融合,其体系架构要从同构计算走向异构计算。
算力聚合方面,要推动通用算力和专用算力的融合。
算力调度方面,需要对多样算力进行统一调度和运营,让融合的算力更加灵活、精益的为各行各业所用。
算力释放方面,要提供算力服务的应用,让多样算力更灵活的释放到数字产业当中。
这波由央企扛旗掀起的智算中心建设浪潮,很大程度源于构建拥有自主可控的AI基础设施的要求,因此也给了很多国产AI服务器和AI加速芯片厂商机会。
AI芯片方面,华为昇腾系列、阿里含光系列、百度昆仑系列都占有不小的市场份额,加上寒武纪、海光信息、燧原科技、天数智芯、壁仞科技、摩尔线程、沐曦等企业也有相关产品推出,市场的选择还是比较丰富。
可是在行业端,虽然华为昇腾与英伟达的H20系列在价格和性能指标上各有优势,但英伟达的生态还是更胜一筹,这也是说,智算中心主要技术的国产化还有很长一段路要走。
更重要的一点是,上述问题没有解决之前,智算中心建的多,能否都用起来是一个很大的疑问。
有媒体报道称,由于智算中心投资、建设和运营往往由不同主体负责,前期建设单位往往对建设后运营的模式、服务标准投入不足,出现了管头不管尾、建设运营割裂的现象,影响客户体验,这也使得不少城市建设的智算中心的机架利用率实际上并不理想。
商业模式方面,智算中心大多以出租或售卖算力为主,可是由于行业未对算力的定价形成统一的标准,导致不同智算中心间的价格相差极大,市场的接受度也有限。
更为关键的是,智算中心的建设成本非常高,部分智算中心每100P半精算的投资成本最高可达6亿,加之高昂的使用成本,比如OpenAI训练GPT-3时耗费了19万千瓦时的电量。
智算中心需要多长时间才能通过运营收入收回投资,行业还需更多的探索。
参考资料:
1、半导体产业纵横,国家队入场,为智算中心再添一把火
2、IT时报,独家:近半年全国智算中心招投标金额超百亿