行业巨头围堵英伟达，不止于造芯

文丨俊俊

英伟达（NVIDIA）作为芯片巨头，近年风光无限。

但在一定程度上，或许影响了整个产业、其他入局者的创新进程。

本周四，AMD、谷歌（Google）、微软(Microsoft)、英特尔（Intel）、博通（Broadcom）、思科（Cisco）、惠普(Hewlett Packard Enterprise，HPE)和Meta在内的八家公司宣告，他们正在成立新的行业组织 UALink（Ultra Accelerator Link）推广组，计划制定、推广UALink行业标准，以推动数据中心AI加速器芯片的组件开发，通过开放标准以打破市场领导者英伟达的垄断。

UALink的名单中，没有英伟达。

英伟达NVLink，铜墙铁壁

大家比较熟悉的是，英伟达作为人工智能芯片市场最大的参与者，在GPU上拥有了绝对领先的份额。

但其实除此以外，英伟达还有很多隐形护城河，拥有一系列技术，可用于在多个GPU和系统上扩展工作负载。

其中包括其片上和封装互连、用于服务器或pod中GPU到GPU通信的NVLink、用于扩展pod之外的Infiniband以及用于连接到更广泛基础设施的以太网。

NVLink是英伟达在高性能计算、人工智能、数据中心和专业图形市场中保持竞争力的关键技术之一，同GPU芯片一样被认为是英伟达在AI浪潮中取得成功的重要基石。

英伟达官方表示，NVLink是全球首创的高速GPU互连技术。作为一种总线及其通信协议，NVLink采用点对点结构、串列传输，用于连接图形处理器（GPU）与支持NVLink技术的中央处理器（CPU），在内存墙无法突破的情况下，最大化提升CPU和GPU之间通信的效率，也可用于多个英伟达GPU之间的高带宽互连。使用NVLink连接两张NVIDIA GPU，即可弹性调整记忆体与效能，满足专业视觉运算最高工作负载的需求。

与传统的PCIe相比，NVLink提供了更高的带宽和更低的延迟，使数据在CPU内存与GPU显存之间的移动速度得到了大幅提升，从而让GPU加速的应用能够大幅提升运行速度，使得GPU之间可以更加高效地共享数据和通信。

NVLink于2016年在基于Pascal架构的GP100芯片和P100运算卡上率先采用，当时的带宽为160GB/s，到H100采用的第四代NVLink，其带宽已经达到900GB/s，是第五代PCIe带宽的7倍。

而B200采用的第五代NVLink，单个Blackwell架构的GPU可实现1.8TB/s的传输带宽，超过PCle Gen 5.0带宽的14倍，明显高于传统PCIe方案。

此外，尽管拥有极高的带宽，NVLink却在每比特数据的传输上比PCIe节能得多。

而统一内存则是NVLink的另一大特性。

GPU的显存速度快但容量小，CPU内存速度慢但容量大，因为内存系统的差异，加速的计算应用一般先把数据从网络或磁盘移至CPU内存，然后再把数据复制到GPU显存，数据才可以被GPU处理。

NVLink简化了GPU加速器的编程，让程序员能够将CPU内存和GPU显存视为一个内存块。程序员可以操作数据，无需担心数据存在于CPU内存还是GPU显存当中。

英伟达为此还专门设计了一个模块来容纳Pascal架构的GPU与NVLink，这一全新的GPU模块仅为当时标准PCIe显卡尺寸的三分之一，Pascal模块底部的接口使其能够插入到主板当中，从而改善了系统设计、提升了信号完整性。

NVLink互联网络技术可提升模型训练规模和速度，在2024年的今天，这项技术已经成为英伟达人工智能帝国的基石之一。

在GTC 2014上，英伟达CEO黄仁勋如此形容大屏幕上显示的NVLink技术：它让GPU与CPU之间共享数据的速度快了5-12倍，这不仅是全球首例高速GPU互联技术，也为百亿亿次级计算铺平了道路。

此言非虚！

新标准UALink，巨头分羹

UALink（Ultra Accelerator Link）有备而来。随着UALink的推出，NVLink市场无二的地位或将终结。

随着AI计算需求的增长，拥有稳健、低延迟且可高效纵向扩展的网络，从而轻松将计算资源添加到单个实例中至关重要。

UALink雄心勃勃。同样是一种可提高新一代AI/ML集群性能的高速加速器互连技术，UALink提议标准的第一个版本 UALink 1.0连接多达1024个AI加速器（仅限GPU），简单地说，就是可以将大量加速器连接在一起，共同完成大规模计算任务。

据UALink推广组称，UALink 1.0基于包括AMD的Infinity Fabric在内的「开放标准」，将允许在连接到的AI芯片的内存之间进行直接加载和存储，与现有互连规范相比，可以提高速度并降低数据传输延迟。

UALink将在今年第三季度成立「UALink联盟」，定义AI计算舱中加速器和交换机之间扩展通信的高速、低延迟互连，以监督UALink规范未来的发展。

UALink 1.0规范也将在同一时间向加入该联盟的公司提供，带宽更高的更新规范UALink 1.1则将于今年第四季度推出。目前尚不清楚 1.0 和 1.1 UALink 规范将支持哪些传输，或者哪些将支持PCI-Express或以太网传输。

UALink的一大优势是让业内其他所有人都有机会与NVIDIA保持同步。它不仅适用于大型企业，也为行业中的每个人打开了一扇门，让他们不仅在规模上，而且在创新方面都能跟上英伟达的步伐。

UALink标准推广落地也有利于整个AI行业，该标准鼓励合作与创新，目标是搭建更快、更高效的人工智能系统，完成更复杂的任务。UALink和行业规范对于新一代AI数据中心用AI和机器学习、HPC和云应用程序的接口标准化及其实现至关重要。

这实际上是打破英伟达的垄断。

无论英伟达如何使用NVLink及NVSwitch，它的几家竞争对手都需要为潜在客户提供可靠的替代方案——为AI服务器节点和机架式设备提供比Nvidia互连更开放、更便宜的替代方案。

一个开放标准的阵营正崛起，旨在打破其专有技术壁垒，这正是UALink推出的重要原因。

芯片研发，争先恐后

除了NVLink，行业巨头对英伟达的「头部」地位也早已觊觎。

尽管英伟达在GPU领域的地位依然稳固，但随着越来越多的行业巨头加入自研芯片的行列，幕后疯狂地研发可行的替代方案，英伟达的市场份额可能会受到挑战。

英特尔发布名为Gaudi 3的最新人工智能芯片，虽然其初衷可能并不是打算超越英伟达最新的人工智能芯片，而是希望为企业提供一种更便宜的替代产品。

英伟达最大的客户之一Meta也不甘示弱，宣布推出Meta自主研发芯片MTIA，这是一款在公司数据中心运行的定制人工智能芯片，可能会减少对英伟达人工智能处理器的依赖。

谷歌母公司Alphabet推出以人工智能为中心的处理器——云张量处理单元(Cloud Tensor Processing Unit, TPU) v5p，可以训练支撑人工智能系统的大型语言模型(llm)。

还有超威半导体（AMD.US）的MI300X，特斯拉分别用于全自动驾驶系统和超级计算机Dojo的自研芯片……

从芯片到UALink，微软、谷歌以及Meta，始终想要摆脱对英伟达的依赖，他们花费了数十亿美元购买英伟达的GPU和服务器来训练其大模型，UALink的出现，或将从根本上重置合作关系。

而在UALink进程中获益最多的，或许是博通这样的公司，无论是在横向还是纵向扩展场景下，它都将成为非Nvidia系统连接解决方案的首选供应商。

写在最后

一个可以与英伟达分庭抗礼的新的行业标准，已经离我们不远了。

在国内，也有龙芯中科发布龙链技术，对标NVLink，可实现Chiplet（小芯片、芯粒）的连接，但在更大范围内的形成通用标准或许仍需时日。

好在，技术在发展，文明在发展，我们会在时间之中收获想象之外的答案。

如果您有什么想说的，欢迎在评论区留言讨论！如果您有新鲜观点或者观察，也欢迎私信“投稿”，进行投稿。

如果您想要获取最新的科技趋势分析、行业内部的独家见解、定期的互动讨论和知识分享、与行业专家的直接面对面交流的机会！

欢迎扫描下方二维码，添加头部科技创始人、AI头号玩家俱乐部主理人张晶晶微信！

玩酷网

行业巨头围堵英伟达，不止于造芯

趣唠科技不打烊