“百模大战”背后，是两百倍的AI算力缺口，和行业落地的最后一公里

作者｜周雅

如果不是在今年这届WAIC2023(世界人工智能大会)的现场，你很难一次性看到这么多大模型扎堆。据悉此次参展的大模型多达30余个，仅被拿来对标“ChatGPT”的国产大语言模型，就包括：

清华大学计算机系知识工程实验室的千亿参数中英文对话模型ChatGLM-130B、复旦大学自然语言处理实验室的MOSS、百度“文心一言”、阿里巴巴“通义千问”、科大讯飞星火认知大模型、商汤商量中文语言大模型、云知声山海大模型等之多。当然，这些也还只是冰山一角，不完全统计来看，国内大模型用百模大战来形容毫不夸张。

国产大模型的顷刻爆发，也导致算力的需求前所未有，增长曲线陡峭。有数据专门统计过，深度学习出现之前，用于AI训练的算力增长大约每20个月翻一番；之后，用于AI训练的算力大约每6个月翻一番；2012年后，全球头部AI模型训练算力需求更是加速到每3个月至4个月翻一番，即平均每年算力增长幅度达到惊人的10倍；目前大模型发展如火如荼，训练算力需求有望扩张到原来的10到100倍。

“过去两年内，大模型带来了750倍的算力需求增长，而硬件的算力供给增长仅有3倍。”华为昇腾计算业务总裁张迪煊在采访中，道出大模型增长与算力供给之间的不平衡现状。换言之，其中存在超过两百倍的算力缺口。

甚至，中国工程院院士、鹏城实验室主任高文在WAIC2023期间指出，“算力也是数字经济发展的一个指数，算力够，数字经济就能发展好；反之，就发展不好。”他还援引清华大学的一份2022年咨询报告佐证观点，“算力指数和GDP成正比，算力越强，GDP就越强。”

这意味着，如果按照先前机构预测的“AIGC到2030年将创造一个万亿级的市场规模”，那么对于国产大模型来说，眼下最关键是找到高可靠性、高性价比的算力。

一个庞大的万卡“算力工厂”

众所周知，训练AI算法需要用到大量GPU算力资源，那么大模型时代下，如何才能把可用的算力资源，变成好用的算力资源？

业内一个行之有效的方案是，既然单个服务器难以满足计算需求，那么为何不集中火力办大事，可以将多个服务器连接成一台“超级计算机”，而这台超级计算机，就是算力集群。

以华为举例。2018年，华为对外发布AI战略，开始打造昇腾AI技术软件平台。时至今日，华为把昇腾AI打造成了一个算力集群，它集结了华为云、计算、存储、网络、能源的综合优势。华为的理念是“DC as a Computer”，相当于把AI算力中心当成一台超级计算机来设计。

2019年，华为发布Atlas 900 AI训练集群，由数千颗华为自研的昇腾910 AI芯片构成，从今年6月可支持4000张卡，到目前已经可支持8000张卡。而华为在WAIC期间宣布计划，到今年底或明年初做到16000张卡，成为业界首个万卡的AI集群。

华为昇腾计算业务总裁张迪煊

为何打造算力集群？

张迪煊在采访中解释说，过去的小模型，每个场景是定制化的，导致开发成本高、变现能力差；大模型出现后，模型的泛化性越来越好、能力越来越强、可以很好去赋能各行业。“我们在那时候判断，AI若要发展，必然要走向大模型+大算力+大数据的计算方式。”所以，昇腾AI迭代到万卡集群，目的是让大模型训练越来越快。

万卡集群相当于什么概念？以1750亿参数量的GPT-3模型训练为例，使用单张英伟达V100显卡，训练时长预计要288年；8张V100显卡的训练时长预计要36年；512张V100的训练时长接近7个月；而1024张A100的训练时长，可以减少到1个月。

按照华为的评估，训练一个1750亿参数、100B数据的GPT-3模型，在8000张卡的Atlas 900 AI集群下需要耗时1天，在16000张卡的集群下可以缩短到半天完成训练。“就像写代码一样，敲一个键盘，这些文件就出来了。”张迪煊形容道。

“中国有一半左右的大模型创新，目前都是由昇腾AI来支持的。”华为轮值董事长胡厚崑在WAIC2023期间强调，“昇腾AI集群目前可以提升10%以上的大模型训练效率，提高10倍以上的系统稳定性，支持30天不中断的长期稳定训练。”

胡厚崑还公布了昇腾AI过去一年来的成绩单：开发者数量从90万到180多万，实现了翻倍；原生孵化和适配30多个10亿以上的大模型，占国产大模型的一半；目前已发展30多家硬件伙伴、1200多家ISV（独立软件开发商）、联合推出2500多个行业AI解决方案；此外，昇腾AI集群已支撑全国25个城市的人工智能计算中心建设，其中7个城市公共算力平台入选首批国家“新一代人工智能公共算力开放创新平台”，算力规模占比90%；同时，已有23家企业推出昇腾AI系列新品，覆盖云、边、端智能硬件，一同提升大模型开发、训练、微调、部署的效率。这里我们梳理一下，面向AI这片前景广阔的机遇之海，华为主要走了三条路径：

其一，算力领域，从单点算力到集群算力，打造强有力的算力底座。这部分主要基于昇腾AI。其二，产业领域，坚持开源开放，来做强昇腾人工智能产业生态。这部分主打的就是政、产、学、研、用的合作。其三，生态领域，推动昇腾AI服务从通用大模型到行业大模型，推动AI“走深向实”。这部分目标是千行百业。

大模型落到实处

与华为的三条AI发展路径相对应的，是公众围绕“大模型”的关注度变化，从早期的“是什么”“为什么”转而开始关心“怎么用”，换句话说，此刻更多人开始关心“大模型真正能发挥作用的场景在哪里”。

这时候，一个相对细分的行业大模型就被注意到了。

“东方·翼风”，是由中国商飞上海飞机设计研究院开发的三维超临界机翼流体仿真大模型，能高精度模拟大飞机全场景飞行状况，而且用时仅为原来的千分之一，相当于将大飞机三维翼型设计速度提升1000倍，缩短了商用大飞机的研发周期。

要知道，一架飞机在飞行过程中50%的阻力来自于翅膀，所以如何造出一个满足飞机飞行要求的机翼，是非常重要的。根据中国商用飞机有限责任公司科技委常委、远程宽体客机总设计师陈迎春的介绍，目前大型客机的设计主要采用三种手段：数值仿真模拟、风洞实验和飞行实验，这三种互为补充。

但其中「数值仿真模拟」耗时长、成本高，是飞机设计的一大瓶颈；而「飞行实验」和「风洞实验」也很费钱，所以传统的数值模拟方法算不动、算不快。要解决这个问题，唯有用到AI技术。

“东方·翼风”大模型因为有AI的加持，实现了效率、精度、模型、场景四个层面的突破：第一，在效率方面，用AI模型代替传统Navier-Stokes方程求解，大幅提升了全局仿真效率。第二，在精度方面，对流动剧烈变化区域特征进行精细捕捉，比如在飞机巡航阶段的机波现象，提升了模型的预测精度。第三，在模型方面，建立大数据样本下模型组件化与分布式并行能力，大幅提升了新模型研发效率。第四，在场景方面，建立了流体到AI的数据统一映射，适用汽车、高铁等多种仿真场景。

如果进一步剖析商飞的“东方·翼风”大模型，它有两个必备条件：其一，大模型的技术底座，这部分来自华为的昇腾AI；其二，流体领域的设计思路、专家经验、行业数据，这部分是商飞的范畴。

从这里可见大模型的发展逻辑：当技术的触角深入应用到各个行业场景里，带来整个商业系统的健康运转，进而带动产业高质量发展。在这个过程中，技术厂商和行业厂商各司其职、互补共生。

“整个产业是有分工的，昇腾主要是做好算力，不会去碰大模型。”张迪煊在采访中也强调。

如何打通 “最后一公里”？

谈及爆发式增长的大模型，张迪煊坦言，如今虽是“百模大战”，但未来重点却应该是各有分工。

其中，L0通用大模型只有一部分大厂能“烧”得起，更多企业做的是L1行业大模型，还有一部分在做场景大模型。比如金融行业，由于L0缺乏行业属性，因此一些企业会拿L1的模型去做金融大模型，然后结合一些细分场景需要（比如精准营销的、风险风控的、智能客服的）再去做一个场景大模型。这是一个产业趋势。

在张迪煊看来，大模型的商业竞争即将开启，大家一方面会快速造模型，另一方面会快速抢占格局，但之后形势会有所收敛。

当有了大算力、大模型，如何打通行业落地最后一公里？

目前，整个行业的痛点是大模型研发周期长、部署门槛高、业务安全性等。为了解决这个难题，华为与面壁智能、智谱AI、科大讯飞、云从科技四家伙伴共同发布大模型训推一体化解决方案，通过共同设计、联合开发、协同上市、持续迭代，为行业客户提供“开箱即用”的大模型一体化解决方案。

“客户只需选择合适的大模型，输入行业数据，即可以完成大模型的训练、微调、推理的全流程。”张迪煊指出，“华为做到了在精度小于千分之五的范围内，实现20倍以上的模型压缩，帮助大模型压缩后用到场景中，降低部署难度和开发成本。”

“昇腾AI支持了中国近一半的原创大模型，也是目前国内唯一完成千亿参数大模型训练并商用的系统。”，张迪煊最后看似轻松的给出这样一组数字。

玩酷网

“百模大战”背后，是两百倍的AI算力缺口，和行业落地的最后一公里

科技行者