华为AI芯片的阳谋,用鸳鸯阵实现算力腾飞,被美国逼成一头怪兽

千秋过往 2025-03-28 17:27:20

华为最新的AI芯片昇腾910C性能只有英伟达H100芯片的60%左右。华为AI芯片的性能为何不如英伟达的,难道是海思芯片的设计能力不行,可海思设计的手机芯片是能媲美苹果和高通的啊。

其实限制华为AI芯片性能的主要原因在工艺制作,昇腾910C的晶体管数量为530亿个,而英伟达H100芯片晶体管数量高达800亿个,简单的数学计算用530除以800得出的就是性能数据的差异。

我国如果无法获得光刻机的突破,短期内在堆积晶体管的比赛上是赢不了英伟达的,继而在算力上落后,但AI是后面二十年人类科技发展的重要方向,中国要想崛起,在这块领域不容有失。

好消息是条条大道通罗马,就在我们扼腕叹息之际,一夜之间AI模型靠芯片堆算力的美国理论和模式被打破了。

蚂蚁集团推出了两款不同规模的MoE大语言模型:百灵轻量版与百灵增强版,前者参数规模为168亿,激活参数27.5亿;后者参数规模高达2900亿,激活参数288亿。这些参数都是在使用国产低性能GPU的情况下实现的,与完全使用英伟达芯片、同规模的稠密模型相当。

参数规模是AI在训练过程中学习和调整的变量,参数越大,模型的复杂度和性能越好。激活参数是指在模型训练或推理过程中实际调用和参与的计算资源,完成同一个任务时,模型激活参数越小越好,说明资源调用最佳,耗能最少。

再加上前面出道即巅峰,轰动全球的AI模型DeepSeek,也是用国产低性能GPU,生成性能等效美国OpenAI耗资数十亿美元成本搞出来的模型。

以上都是MoE大语言模型,一种完全依赖高性能计算资源的AI模型,相同类型的比较。这里所说的国产低性能GPU是指华为的昇腾910B和910C。

这不得不让人惊叹,华为是如何实现“低性能高效率”的呢?那就不得不提到两个概念——协同和兼容。

在讲协同之前,需要先提到一个军队——明朝名将戚继光和他的戚家军。

明朝嘉靖皇帝年间正是日本的乡村大战,他们自己美其名曰战国时期,大量的日本武士和浪人战败后无容身之地,担心被报复或清算,于是投奔怒海,辗转逃到大明东南沿海。这些人除了打仗没有一技之长,唯一的生存模式只有抢劫,他们的单兵素质非常高,且悍不畏死,一个人能打五六个明军士兵,因此双方交战的场景经常是四五个倭寇撵着几十个明军到处乱跑。

这种情况下,戚继光走马上任,在了解情况后,他没有使用老油子的明军,而是在浙江义乌招募了3000名矿工和农民,进行训练。

嘉靖四十年四月,倭寇派出两万人马,分乘数百艘战船进犯浙江,准备大抢一番。戚继光带着这支刚组建不久的三千“杂牌军”出战,在不被看好的情况下,从宁海打到新河,从花街杀到上峰岭,一个月内连打四场大胜仗,杀得倭寇胆寒。最后的结果令人震惊:歼敌五千余人,己方伤亡不到二十人。所有人都惊呆了,戚继光的上级专门过来调查,担心这是谎报。

论单兵素质,出身矿工和农民的戚家军确实比不过天天舞刀弄棍的日本武士,单挑必被碾压,但他们依靠戚继光发明的“鸳鸯阵”协同作战,长短结合,攻防一体,让倭寇一碰就彻底崩溃。

这就是协同性的重要性,三千破两万,单兵战斗力不代表一个系统的战斗力。关于兼容性,我们可以用木桶理论来形容,我们知道决定一个木桶能装多少水,不是最长的那一根木板,而是最短的。

AI模型的“木板”有多少个呢,包括:

一、GPU,为图像处理而生,相比于CPU拥有更多的计算单元,虽然CPU可做复杂计算,GPU只适合做简单重复性计算,但CPU是顺序执行计算,GPU可大量并发执行。在AI人工智能中GPU足够了,因为除了高斯这种大神,绝大多数人脑本身就只能进行简单计算。

二、云计算,包括计算机服务器、通信设备、存储设备、数据通信连接、环境监控设备、管理系统以及各种安全装置;

三、RAM,与CPU直接交换数据的内部存储器,也叫内存,可以随时读写。RAM的容量和性能应与GPU以及具体需要处理的数据相匹配,不是越大越好,够用最好,太大了反而会拖慢速度和耗能。

四、CPU,只在深度学习时使用,进行训练模型时的预处理或训练模型前的预处理;

五、SSD/Hard Drive,也叫硬盘,能让程序起步、反应更快,提高运算的舒适度;

六、Power supply unit (PSU)和显示器。这两个都没有太多技术含量,一个为了防止断电,一个是视觉效果,只要有就行,如果有钱,也可以按顶配来,不决定性能,只决定心情。

AI模型硬件中最关键的是前四项:GPU、云计算、RAM、CPU。这四大件必须互相要兼容,否则就会出现2010年腾讯360之争的极端例子,装有360软件的电脑上无法运行QQ软件,或系统出现蓝屏等。

美国科技企业分工比较细,AI模型使用的硬件来自不同公司,造成四大件背后运行的逻辑关系和源代码作为商业机密并不对友商公布,其他厂家只能靠公布的信息进行适配,因此这些硬件之间的配合可以说是流于表面,并不能完全发挥100%的设计效能,能发挥出个体90%的水平都不错了,而4个都发挥90%的组合在一起水平只能是90%的四次方,结果是60%的实力体现。

GPU、云计算、RAM、CPU四大件,华为在被制裁的情况下,被逼全部实现了自主生产,反而因祸得福,其逻辑关系和源代码全部打通,畅通无阻。

美国的AI模型如同全真七子的天罡北斗阵,需要配合缺一不可,在长真子谭处端被欧阳锋杀死后,尹剑平补上去的武力完全就是专职搞笑的。中国的AI模型如同郭靖,虽然天资有限,但降龙十八掌、九阴真经、全真心法全部融会贯通,实力暴涨到可以挑战“东邪西毒南帝北丐中神通”。

这就是为什么华为昇腾910C的性能只能达到NVIDIA H100芯片的60%左右,却在AI推理中表现的出乎意料得好。DeepSeek花费数百万美元使用华为昇腾910C就能实现媲美OpenAI耗资数十亿美元搭建起来的ChatGPT。

蚂蚁集团近日再次复制了这样的“低价高效”奇迹,成功实现使用国产芯片搭建的百灵AI模型,训练成本直降20%,彻底撕碎了西方技术封锁的算力铁幕。

这如同中国在新能源汽车上,实现了全产业链,中国8个月就能升级换代推出新车,而欧美推出一款新车需要4年时间。华为被美国逼出一身才华,实现AI的全产业链指日可待,当美国发现自己逼出最强对手,不知作何感想。

0 阅读:71