上周五英伟达的股价经历了一场风暴,最终出现股价下跌10%,市值消失1.5万亿人民币的悲剧。
表面上看,英伟达是被超威电脑这家公司带崩的。
因为一开始超威电脑宣布自己不再发布业绩预告,而是等4月底直接发布一季报。这被市场迅速解释为超威电脑的业绩不及预期,于是引发对于这家公司股票的抛售狂潮。
因为超威电脑实际上是生产以英伟达算力芯片为核心的边缘计算设备、服务器以及存储设备的公司,再加上这家公司跟英伟达深厚的联系,很多时候被看作英伟达芯片市场变动的晴雨表。
毕竟有时候国内外互联网巨头到英伟达买算力芯片还要排队,但只要加钱就能从超微电脑拿到有英伟达芯片的算力服务器。
然而,真正引发这一场恐慌式股灾的,并不仅仅是超威电脑业绩预告没发这件事。
背后引动的深层原因才更加重要。
巨头开始思考在一个风和日丽的早晨,华尔街的股市却经历了一场“地震”。英伟达,这个芯片制造的巨头,股价突然暴跌。一石激起千层浪,这场股价震荡不仅让投资者们心惊胆战,更在行业内引发了深层次的思考。
记得就在不久前,英伟达发布了算力强大的GB200芯片组,被誉为史上最强。那时的英伟达,风头无两,行业内一片欢腾。然而,好景不长,19日股价的暴跌,让市场对英伟达未来的信心产生了动摇。
券商分析师们纷纷站出来解读这一现象,他们的看法出奇地一致:市场对英伟达芯片未来的需求产生了疑虑。这究竟是怎么回事呢?
要理解这一转变,我们得深入探究当前人工智能技术的核心——transformer架构。这个由Google在2017年提出的架构,已成为自然语言处理领域的翘楚。从OpenAI到微软,从谷歌到META,几乎所有美国的大模型都建立在这一架构之上。
Transformer架构的魔力在于它在语义理解和人工智能训练上的卓越表现。但正如一枚硬币有两面,它的劣势也同样明显:无法将问题分解,必须整体训练。这意味着,想要提升模型性能,就得不断堆砌算力资源,开辟更多的问题培训通道。
于是乎,英伟达的高性能算力芯片成为了行业的香饽饽。从A100到GB200,英伟达算力芯片的价格飙升了十几倍,从3000美元一路涨至近4万美元。而互联网巨头们为了提升大模型性能,不得不持续投入巨额资金购买更多芯片和电力资源。
以OpenAI的ChatGPT为例,据英美媒体报道,其运行需要高达3万块A100算卡,每天耗费50万度电。这样的投入规模让人咋舌,更别提其他多家巨头在人工智能领域的投入了。然而,这些投入并未能带来相应的商业回报。据说OpenAI的营收仅占成本的不到三分之一,其他多家巨头的财报也显示类似的情况。
这种完全依靠巨额投入推动模型发展的思路,开始让互联网巨头们感到力不从心。他们开始思考:这样的发展模式真的可持续吗?
在这种背景下,英伟达股价的暴跌无疑加剧了市场的恐慌情绪。投资者们开始担心,一旦这种依靠巨额投入的发展模式难以为继,英伟达的芯片需求是否会大幅下降?
这种担忧并非空穴来风。毕竟,互联网巨头们正在面临一个尴尬的现实:他们在人工智能领域的投入不断增加,但商业回报却远远无法覆盖成本。这种局面下,他们还能否继续充当英伟达的“提款机”,实在是一个未知数。
而这种潜藏在水面下的趋势,正是英伟达股价一有风吹草动就引发市场恐慌的根本原因。巨头们的无奈,也折射出整个行业在追求技术进步与商业回报之间的艰难平衡。
新的救世主在一个被英伟达芯片和高昂训练成本所困扰的时代,互联网巨头们急需一位新的救世主来引领他们走出困境。这位救世主并非手持利剑的英勇骑士,也不是神秘的魔法师,而是一个名为MoE的机器学习模型架构。
曾经,巨头们对英伟达芯片的依赖如同信仰一般坚定不移。然而,随着模型训练成本的飙升,他们开始寻求新的出路。自主研发或采购更便宜的芯片?这固然是一个选择,但芯片研发之路漫漫,而从英伟达的CUDA平台迁移更是耗时耗力。在这个速度为王的时代,时间就是金钱,巨头们可耗不起。
于是,他们将目光投向了另一种可能——寻找一个能够完美解决transformer架构劣势、提升训练效率的新模型架构。这时,MoE架构如同一位光芒四射的救世主,走进了巨头们的视野。
MoE,全称Mixture of Experts,是一种由多个“专家”模型组成的机器学习架构。想象一下,这些“专家”如同智囊团中的精英,各自擅长处理不同的数据任务。当面临复杂问题时,他们齐心协力,共同攻克难关。
MoE架构的工作流程宛如一场精彩的交响乐章。数据首先来到一个智慧的“门卫”前,这位门卫眼光独到,能够准确识别出哪些专家最擅长处理这些数据。接下来,数据被精准地传送到对应的专家手中。这些专家各自为战,却又协同作战,最终将各自的智慧汇聚成一份完美的答卷。
令人惊叹的是,MoE架构通过巧妙地将大任务分解为小任务,实现了训练资源的极大节约。与传统的transformer架构相比,它所需要的推理和训练资源大大降低。这不仅是技术上的一次革命性突破,更是为巨头们带来了实实在在的经济效益。
更重要的是,MoE架构的成功运用需要深厚的技术功底。如何精准地切分任务、找到关键的神经网络并训练出卓越的专家模型,这都需要开发者们匠心独运、精益求精。相较于不断增长的硬件投入,这种对技术的软性投入显然更受巨头们的青睐。
此外,MoE架构的特点有利于新兴大模型企业的发展壮大,因为它们可以通过技术理解和发展来突破现有巨头的硬件护城河。
因此,MoE架构开始以其独特的魅力吸引着越来越多的大模型开发者。它不仅为巨头们指明了一条破局之路,更为整个AI行业注入了新的活力。
中国大模型的机会来了MoE这个在统计学中早已被提出的概念,在近年来开始受到人工智能研究者的关注。
但要说它真正崭露头角,还要回溯到2018年。那时的研究者们发现,这个沉寂多年的架构,或许能为日益庞大、复杂的大模型训练提供新的解决方案。
然而,任何技术的成长都不是一帆风顺的。MoE在训练过程中遭遇了诸多挑战,输出结果的不稳定性和对特定专家的过度依赖都限制了它的广泛应用。尽管谷歌等科技巨头在此领域有所斩获,但相比成熟的Transformer架构,MoE仍显得有些稚嫩。
转折出现在2023年6月,一篇名为《MoE Meets Instruction Tuning》的论文为MoE的发展指明了新的方向。研究者们从技术可行性的角度出发,为MoE难以控制的问题提供了有效的解决方案。这篇论文如同一股清流,为MoE注入了新的生命力。
仅仅半年后,Mistra AI在X平台上发布了首个开源MoE模型,这一举动无疑将MoE从纯粹的理论研究推向了实际应用的前沿。与此同时,国内的模型研发团队也嗅到了新的机遇。
MiniMax、新旦智能、元象科技等一批国内企业纷纷宣布投入MoE架构的研发,他们看到了MoE带来的无限可能。MoE的核心思想“分而治之”让这些企业看到了解决大模型训练难题的希望。
对于国内的大模型开发方来说,MoE不仅解决了训练过程中的诸多难题,更在推理方面展现出了独特的优势。传统的大模型训练方法往往伴随着庞大的计算资源和漫长的训练周期,而MoE通过横向拓展模型的方式,轻松提升了模型的性能,且不会给计算资源带来过重的负担。
在推理方面,MoE的Router机制使得在推理时只需激活部分专家,大大降低了推理成本。这一优势让国内开发方在商业应用中更具竞争力,也为他们带来了更多的市场机会。
特别值得一提的是,MoE架构的灵活性和扩展性也为国内大模型市场带来了新的活力。随着技术和数据的不断积累,开发方可以轻松地增加新的专家到模型中,进一步提升模型的性能。这种灵活性使得MoE能够迅速适应市场的变化和技术的发展。
如今,国内已有不少领先的团队开始尝试将MoE应用于大模型的开发中。百度的ERNIE模型就是其中的佼佼者,它通过MoE架构设计实现了对语言的深入理解和生成,广泛应用于文本分类、情感分析和机器翻译等领域。而昆仑万维发布的天工系列模型也是基于MoE架构打造的混合大模型,正在公测的天工3.0同样展现了强大的性能。
可以说,MoE架构不仅仅是一种技术突破,它更代表了一种全新的研发理念和模式。在这种理念和模式的引领下,中国的大模型领域正迎来前所未有的发展机遇。
某种程度上讲,这或许是中国在大模型领域追上甚至反超美国的关键所在。
作 者 | 张津京