行业巨头围堵英伟达,不止于造芯

趣唠科技不打烊 2024-06-01 09:50:41

文丨俊俊

英伟达(NVIDIA)作为芯片巨头,近年风光无限。

但在一定程度上,或许影响了整个产业、其他入局者的创新进程。

本周四,AMD、谷歌(Google)、微软(Microsoft)、英特尔(Intel)、博通(Broadcom)、思科(Cisco)、惠普(Hewlett Packard Enterprise,HPE)和Meta在内的八家公司宣告,他们正在成立新的行业组织 UALink(Ultra Accelerator Link)推广组,计划制定、推广UALink行业标准,以推动数据中心AI加速器芯片的组件开发,通过开放标准以打破市场领导者英伟达的垄断。

UALink的名单中,没有英伟达。

英伟达NVLink,铜墙铁壁

大家比较熟悉的是,英伟达作为人工智能芯片市场最大的参与者,在GPU上拥有了绝对领先的份额。

但其实除此以外,英伟达还有很多隐形护城河,拥有一系列技术,可用于在多个GPU和系统上扩展工作负载。

其中包括其片上和封装互连、用于服务器或pod中GPU到GPU通信的NVLink、用于扩展pod之外的Infiniband以及用于连接到更广泛基础设施的以太网。

NVLink是英伟达在高性能计算、人工智能、数据中心和专业图形市场中保持竞争力的关键技术之一,同GPU芯片一样被认为是英伟达在AI浪潮中取得成功的重要基石。

英伟达官方表示,NVLink是全球首创的高速GPU互连技术。作为一种总线及其通信协议,NVLink采用点对点结构、串列传输,用于连接图形处理器(GPU)与支持NVLink技术的中央处理器(CPU),在内存墙无法突破的情况下,最大化提升CPU和GPU之间通信的效率,也可用于多个英伟达GPU之间的高带宽互连。使用NVLink连接两张NVIDIA GPU,即可弹性调整记忆体与效能,满足专业视觉运算最高工作负载的需求。

与传统的PCIe相比,NVLink提供了更高的带宽和更低的延迟,使数据在CPU内存与GPU显存之间的移动速度得到了大幅提升,从而让GPU加速的应用能够大幅提升运行速度,使得GPU之间可以更加高效地共享数据和通信。

NVLink于2016年在基于Pascal架构的GP100芯片和P100运算卡上率先采用,当时的带宽为160GB/s,到H100采用的第四代NVLink,其带宽已经达到900GB/s,是第五代PCIe带宽的7倍。

而B200采用的第五代NVLink,单个Blackwell架构的GPU可实现1.8TB/s的传输带宽,超过PCle Gen 5.0带宽的14倍,明显高于传统PCIe方案。

此外,尽管拥有极高的带宽,NVLink却在每比特数据的传输上比PCIe节能得多。

而统一内存则是NVLink的另一大特性。

GPU的显存速度快但容量小,CPU内存速度慢但容量大,因为内存系统的差异,加速的计算应用一般先把数据从网络或磁盘移至CPU内存,然后再把数据复制到GPU显存,数据才可以被GPU处理。

NVLink简化了GPU加速器的编程,让程序员能够将CPU内存和GPU显存视为一个内存块。程序员可以操作数据,无需担心数据存在于CPU内存还是GPU显存当中。

英伟达为此还专门设计了一个模块来容纳Pascal架构的GPU与NVLink,这一全新的GPU模块仅为当时标准PCIe显卡尺寸的三分之一,Pascal模块底部的接口使其能够插入到主板当中,从而改善了系统设计、提升了信号完整性。

NVLink互联网络技术可提升模型训练规模和速度,在2024年的今天,这项技术已经成为英伟达人工智能帝国的基石之一。

在GTC 2014上,英伟达CEO黄仁勋如此形容大屏幕上显示的NVLink技术:它让GPU与CPU之间共享数据的速度快了5-12倍,这不仅是全球首例高速GPU互联技术,也为百亿亿次级计算铺平了道路。

此言非虚!

新标准UALink,巨头分羹

UALink(Ultra Accelerator Link)有备而来。随着UALink的推出,NVLink市场无二的地位或将终结。

随着AI计算需求的增长,拥有稳健、低延迟且可高效纵向扩展的网络,从而轻松将计算资源添加到单个实例中至关重要。

UALink雄心勃勃。同样是一种可提高新一代AI/ML集群性能的高速加速器互连技术,UALink提议标准的第一个版本 UALink 1.0连接多达1024个AI加速器(仅限GPU),简单地说,就是可以将大量加速器连接在一起,共同完成大规模计算任务。

据UALink推广组称,UALink 1.0基于包括AMD的Infinity Fabric在内的「开放标准」,将允许在连接到的AI芯片的内存之间进行直接加载和存储,与现有互连规范相比,可以提高速度并降低数据传输延迟。

UALink将在今年第三季度成立「UALink联盟」,定义AI计算舱中加速器和交换机之间扩展通信的高速、低延迟互连,以监督UALink规范未来的发展。

UALink 1.0规范也将在同一时间向加入该联盟的公司提供,带宽更高的更新规范UALink 1.1则将于今年第四季度推出。目前尚不清楚 1.0 和 1.1 UALink 规范将支持哪些传输,或者哪些将支持PCI-Express或以太网传输。

UALink的一大优势是让业内其他所有人都有机会与NVIDIA保持同步。它不仅适用于大型企业,也为行业中的每个人打开了一扇门,让他们不仅在规模上,而且在创新方面都能跟上英伟达的步伐。

UALink标准推广落地也有利于整个AI行业,该标准鼓励合作与创新,目标是搭建更快、更高效的人工智能系统,完成更复杂的任务。UALink和行业规范对于新一代AI数据中心用AI和机器学习、HPC和云应用程序的接口标准化及其实现至关重要。

这实际上是打破英伟达的垄断。

无论英伟达如何使用NVLink及NVSwitch,它的几家竞争对手都需要为潜在客户提供可靠的替代方案——为AI服务器节点和机架式设备提供比Nvidia互连更开放、更便宜的替代方案。

一个开放标准的阵营正崛起,旨在打破其专有技术壁垒,这正是UALink推出的重要原因。

芯片研发,争先恐后

除了NVLink,行业巨头对英伟达的「头部」地位也早已觊觎。

尽管英伟达在GPU领域的地位依然稳固,但随着越来越多的行业巨头加入自研芯片的行列,幕后疯狂地研发可行的替代方案,英伟达的市场份额可能会受到挑战。

英特尔发布名为Gaudi 3的最新人工智能芯片,虽然其初衷可能并不是打算超越英伟达最新的人工智能芯片,而是希望为企业提供一种更便宜的替代产品。

英伟达最大的客户之一Meta也不甘示弱,宣布推出Meta自主研发芯片MTIA,这是一款在公司数据中心运行的定制人工智能芯片,可能会减少对英伟达人工智能处理器的依赖。

谷歌母公司Alphabet推出以人工智能为中心的处理器——云张量处理单元(Cloud Tensor Processing Unit, TPU) v5p,可以训练支撑人工智能系统的大型语言模型(llm)。

还有超威半导体(AMD.US)的MI300X,特斯拉分别用于全自动驾驶系统和超级计算机Dojo的自研芯片……

从芯片到UALink,微软、谷歌以及Meta,始终想要摆脱对英伟达的依赖,他们花费了数十亿美元购买英伟达的GPU和服务器来训练其大模型,UALink的出现,或将从根本上重置合作关系。

而在UALink进程中获益最多的,或许是博通这样的公司,无论是在横向还是纵向扩展场景下,它都将成为非Nvidia系统连接解决方案的首选供应商。

写在最后

一个可以与英伟达分庭抗礼的新的行业标准,已经离我们不远了。

在国内,也有龙芯中科发布龙链技术,对标NVLink,可实现Chiplet(小芯片、芯粒)的连接,但在更大范围内的形成通用标准或许仍需时日。

好在,技术在发展,文明在发展,我们会在时间之中收获想象之外的答案。

如果您有什么想说的,欢迎在评论区留言讨论!如果您有新鲜观点或者观察,也欢迎私信“投稿”,进行投稿。

如果您想要获取最新的科技趋势分析、行业内部的独家见解、定期的互动讨论和知识分享、与行业专家的直接面对面交流的机会!

欢迎扫描下方二维码,添加头部科技创始人、AI头号玩家俱乐部主理人张晶晶微信!

0 阅读:0

趣唠科技不打烊

简介:感谢大家的关注