很多人以为英特尔的 CPU销量很高,就认为它是一家很成功的硬件企业,但实际上,英特尔之所以能在台式机上独占鳌头,完全是因为它在1978年推出了X86体系结构。
英伟达也是如此。
英伟达之所以能在人工智能领域占据一席之地,很大程度上,就是因为 CUDA的存在。
该体系结构在2006年问世,如今已经渗透到了计算机运算的方方面面,其外形就像英伟达一样。在航空航天,生命科学,力学与流体仿真以及能量探测方面,80%以上的研究都基于 CUDA。
而在人工智能这一块,各大厂商都已经做好了 B计划:谷歌,亚马逊,华为,微软, OpenAI,百度,没有人愿意将自己的命运掌握在他人之手。
根据创业顾问公司Dealroom.co li发布的一份报告显示,在人工智能浪潮中,美国拿到了89%的投资,而中国在 AI芯片方面的投资也是世界上最多的,比美国多了一倍。
换句话说,中美两国的企业,虽然在发展模式上有很大的不同,但对于算力的控制,却是出奇的一致。
CUDA的神奇之处在哪里?
在2003年,英伟达开始研发一种名为 CUDA的统一运算装置体系结构,以对抗英特尔,后者的4核心 CPU。
CUDA最初的目的就是为了给 GPU添加一种易于使用的程序界面,这样开发者就不需要再去学习复杂的颜色和图形化的语言了。英伟达的初衷是让黄仁勋称之为" make graphics programmable"的游戏开发商在图像处理方面有更多的应用。
但在 CUDA发布之后,并没有找到核心的应用,也没有得到核心用户的支持。更何况,英伟达还需要投入大量的资金,来研发新的应用程序,维护和营销,再加上2008年经济危机的影响,英伟达的收入,也受到了很大的影响,现在的股价,已经跌到了1.5美元。
在2012年之前, Hinton公司的两名学生使用英伟达的图形处理器参与了一场名为 ImageNet的图象识别速度竞赛。他们用的是GTX580图形处理器,采用 CUDA技术,计算速度要比第二名快十倍,精度也要高出一大截。
震撼整个行业的,不仅仅是 ImageNet模型。这套神经网络需要1400万幅图片,总计262千亿亿次的浮点计算,在一周的时间里,只使用了4块 GTX 580芯片。为了说明这一点,谷歌猫咪共使用了1千万张图片,16000个 CPU,1000部电脑。
这场竞赛不但对人工智能来说是一个历史性的转变,而且为英伟达开启了一个新的发展方向。英伟达已经和行业伙伴一起推进人工智能的生态系统,推出了开放的人工智能架构,并且和谷歌、脸书等公司一起开发了诸如 TensorFlow之类的人工智能技术。
而黄仁勋所说的" open up GPU for programmability for all kinds of things",也就是他所说的第二个步骤。
随着 GPU的价值被挖掘出来,各大厂商才意识到,英伟达已经将 CUDA技术推向了一个新的高度,这是一道不可逾越的鸿沟。
英伟达为开发者提供了 cuDNN、 cuBLAS、 TensorRT等多种类库和工具,以帮助开发者在深度学习、线性代数以及推理等方面获得更好的性能。另外,英伟达也为开发者提供了一套完善的开发工具,其中包含了 CUDA编译器和优化器,这使得开发者可以更加轻松地对 GPU进行编程,并对其进行性能优化。
同时,英伟达还与 TensorFlow, PyTorch, MXNet等主流深度学习框架密切配合,使得 CUDA在深度学习方面具有明显的优越性。
正是这种“推一把,推一把”的态度,让英伟达在短短两年半的时间里,把 CUDA生态系统的开发人员增加了一倍。
但这并不是全部,英伟达在过去的十多年中,已经在350多所高校开设了 CUDA的课程,并邀请了一批资深的软件开发人员,为 CUDA的实际应用提供了强有力的技术支撑。
最重要的是,英伟达很清楚,以硬件为护城河的缺点,就是缺乏足够的用户,所以他们选择了 CUDA来构建 GPU,选择了 OptiX来降低 AI的性能,选择了 CUDA来进行自动驾驶。
虽然英伟达在 AI计算能力上占据了90%以上的市场份额,但这并不意味着它就是一家独大。
一道道裂痕
AI厂商们对 CUDA的抱怨,并不是没有道理的。
CUDA最大的特点就是,它将硬件和软件结合在了一起,作为一个软件生态系统的基础,任何竞争对手都很难绕开 CUDA和英伟达的操作系统。对于硬件而言, CUDA的设计基本上是基于英伟达的硬件架构,基本上所有的核心理念都与 GPU的硬件架构有直接的关系。
而其他的竞争者,则只有两条路可走。
1 绕过 CUDA,重新构建一个软件生态系统,但这需要面对英伟达的大量客户。
2款虽然可以与 CUDA兼容,但也有一个问题,那就是如果你的硬件设计,跟英伟达的设计不一样,那你的性能就会变得很差,而且你的 CUDA,也会随着英伟达的发展而变化,你唯一能做的,就是跟着英伟达走。
不过,也有一些公司,想要从英伟达手中挣脱出来。
2016年, AMD发布了一款以开放源码为基础的 GPU生态系统 ROCm,它为所有 CUDA兼容的 HIP工具提供了很好的借鉴作用。
然而,由于其资源匮乏、开发与迭代兼容成本高昂,使得 ROCm生态很难成长。在 Github上,有32600多名开发人员为 CUDA提供了支持,相比之下, ROCm的开发者还不到600个。
想要与英伟达的 CUDA兼容,最大的问题就是它的升级速度无法跟上 CUDA的脚步,而且想要达到完美的兼容性也是非常困难的。
1迭代总是缓慢:英伟达的图形处理器对微体系结构和指令集的迭代非常迅速,这使得其上层软件栈中的许多部分都需要进行适当的功能升级。但是, AMD并不清楚英伟达未来的发展方向,因为它的升级速度,总是比英伟达要慢上一些。比如 AMD发布的CUDA11,而英伟达却发布了CUDA12。
2不能完美兼容,只会给开发人员带来更大的负担:像 CUDA这种大规模的软件,其体系结构非常复杂, AMD要花上数年乃至数十年的时间,才有可能赶上。这是不可避免的,如果不能很好地处理好这一点,就会对游戏的性能造成很大的影响,就算是99%都是一样的,剩下的1%也要花掉玩家99%的时间。
还有一些企业避开了 CUDA,例如 Modular,它是在2022年一月创立的。
Modular的想法是尽量减少临界值,但是它更多的是出其不意。本项目提出了一种“提升 AI模型效能”的“AI引擎”,以“模块化”的方法来解决目前 AI应用程序往往与具体软硬件相耦合的难题。
与该人工智能引擎相匹配的是 Modular,它还开发了一种开放源码的程序设计语言 Mojo。你可以认为这是一门“专为 AI而生”的语言, Modular利用这门语言开发了各种各样的工具,并将其与之前所说的人工智能引擎结合在一起,并且与 Python无缝连接,减少了学习的难度。
但是 Modular的问题是它为“整个平台的发展工具”设计得过于理想。
尽管拥有“超越 Python”的称号,以及克里斯•拉特纳的名气, Mojo仍然是一门全新的语言,它的普及度有待于许多开发商的检验。
至于 AI引擎,那就更麻烦了,既要和很多硬件厂商签订合同,又要保证各个平台的兼容性。这其中的难度,将是一个漫长而漫长的过程,至于英伟达究竟会发展成什么样,那就不得而知了。
华为的挑战
美国于十月十七日修订了人工智能芯片的出口控制条例,禁止像英伟达这样的企业将高级人工智能芯片出口到中国。在新规定下,英伟达的A800、H800等芯片向中国出口将面临困难。
在英伟达仅限于向中国出口A100和H100之后,A800和H800是专门为中国提供的“阉割版”,以满足法规的要求。英特尔也发布了一款人工智能芯片,名为“高迪亚2”,目标直指中国。现在,公司似乎又要面对一次新的出口禁令的调整了。
八月份,华为研发的麒麟9000系列手机发布,在网络上引起了轩然大波,甚至盖过了之前的那条消息。
科大讯飞主席刘庆峰在一次公共场合发表了难得的讲话,表示华为的 GPU可以对标英伟达的A100,但是华为必须要在讯飞组建团队的情况下,才能对标英伟达的A100。
这些突如其来的声明背后都隐藏着某种深意,尽管它并不具备预言的力量,但是它仍然可以用来应付两个月后的晶片禁令。
华为的 GPU,即升腾 AI的全栈软硬件平台,由下而上依次为: Atlas系列硬件,异构计算体系结构,人工智能框架,应用支持,工业应用。
简单来说,就是华为在英伟达的基础上,对标英伟达的 CUDA+ CuDNN,而 CANN则是用来代替英特尔的。
当然,也不是完全没有区别,有业内人士得出了两个结论:
1块的性能是最差的,而升腾910和A100的差距也很大,但是因为它的性价比更高,所以在量产之后,总体上并没有太大的区别。
2是一个很弱的生态系统,不过华为一直在努力弥补,就像 PyTorch2.1和升腾公司的合作, PyTorch2.1已经实现了对升腾 NPU的支持,这也就意味着,开发者可以在 PyTorch2.1上,直接使用升腾来进行模型的开发。
现在华为的升起,大部分都是华为自己的闭环架构,所有发布的机型,都需要华为进行深度的优化,然后才能在华为的平台上运行,而这些优化工作,都需要华为来完成。
而这一点,在当今的大环境下,更是显得尤为重要。
华为在五月份的时候,升腾运算事业部总经理张迪煊就已经披露,“升腾 AI”的底层软、硬件平台已经孵化并适配了超过30种主流大型模型,国内超过半数的本土大模型,都是在鹏程系列,紫东系列,华为云端盘古式等“升腾 AI”基础硬件平台上建立起来的。百度还于八月发布了其将会在“飞桨”+“文心云”平台上进行升级的消息。
而且,根据网上的照片,中国的 AI超级计算机中心,几乎都是华为的,据说在新一轮的芯片禁令之后,30%-40%的产量都会被转移到升起的服务器上。
终章
在英伟达大举进军的时候,谁也没想到, CUDA竟然会成为一款划时代的产品,黄仁勋甚至还说服了董事会,让他们拿出五亿美元,去赌十年以上的回报,要知道,英伟达的利润,只有三十亿美元。
但是,在每一个以科技与创新为关键词的行业中,总是会有一些人,他们能够持之以恒地追求长期的发展,比如英伟达、华为等。
没有华为的支撑,中国的科技界又会是什么样?新殖民地?
一篇似是而非的初稿,漏洞百出
中国禁用英伟达,华为完全可以起来
遇到困难时总是有华为站出来,全能战士呀
所以不要喷短视频卖家,他们拿到钱跑路了!
人工智能芯片也会失败,美国的制裁全面失败了。
美国人的厉害之处,在大学中为生态提供教学课程支持,从Intel到微软再到英伟达,都是如此,可是我们国内的企业呢?哪怕是华为……
第三国买完后打磨一下就行了
华为肯定会远超英伟达的。软硬件都比它强。迟早干翻
国内手机不是依然在采购高通骁龙芯片吗?