自研芯片，江波龙要突破魔咒

如路透社在报道说，英伟达正在通过生产人工智能芯片赢得了 2.2 万亿美元的市值，这些芯片已成为从OpenAI初创公司到谷歌和微软等传统巨头的生成式人工智能开发人员的新时代命脉。

“与其硬件几乎同样重要的是该公司近 20 年的计算机代码，这使得与该公司的竞争几乎不可能。全球超过 400 万开发者依靠 Nvidia 的 CUDA 软件平台来构建 AI 和其他应用程序。”路透社接着说。

现在，一个包括高通、谷歌和英特尔在内的科技公司联盟，计划通过追赶芯片巨头的秘密武器来拜托英伟达的束缚——让开发人员与英伟达芯片保持联系的软件（CUDA）。他们是不断扩大的金融家和公司群体的一部分，这些金融家和公司正在削弱英伟达在人工智能领域的主导地位。

而他们倚仗的这个联盟就是UXL，而该联盟的技术底座，则脱胎于英特尔之前一直开发的One API。

UXL的成立，异构计算的必然结果？

UXL是Unified Acceleration的简称，也就是统一加速。而为了推动这个技术的普及，在去年的9月举办的Linux 基金会开源峰会上，UXL基金会宣布成立。按照UXL 生态系统副总裁兼基金会指导委员会主席Rod Burns在一篇文章中的说法，UXL的推动成立，是产业发展的必然结果。

Rod Burns说：“在我的工作生涯中经历了科技行业的三个重大转变：第一个是移动软件极大地改变了手持电脑的可能性；第二个是云计算为每个人带来了大规模计算；第三个是当前加速计算的快速增长。计算机架构正在发生变化，异构计算的理念正在成为现实。”

所谓异构计算是一个术语，用于描述由多种类型的处理器（例如 CPU 和 GPU）组成的计算机架构，而且还包括越来越多用于人工智能等用途的专用芯片，虽然它不是一个新术语，但它正在推动行业的重大转变。

然而，对数据密集型工作负载的需求不断增长，导致 GPU 使用激增，最近基于 LLM（大型语言模型）的 AI 应用程序的出现，导致 GPU 使用量激增，并引起了公众的广泛关注。过去 10 年来，GPU 在科学和金融等领域的使用一直呈持续快速上升的趋势，现在世界上几乎所有顶级超级计算机都将大量 GPU 作为其架构的一部分。

根据2023 年 Evans Data 开发人员调查， 75% 的软件开发人员正在使用或计划使用高性能计算 (HPC)，表明加速器的使用量正在上升。我们现在面临的挑战是，Linux 和 GNU 使用开源和基于标准的项目改造了 CPU 的软件堆栈，而 GPU 软件堆栈仍然相当新，并且某些领域（尤其是人工智能）的标准仍在定义中。此外，预计专门为人工智能等最新工作负载设计的专用处理器在未来几年将需要基于标准的软件堆栈。我们正在进入一个高度异构的计算机架构新时代。

这一变化为定义和构建带来性能可移植性的平台带来了巨大的机会。为了使加速计算变得普遍，它需要基于开放标准并包括多个供应商和架构。为了实现这一目标，UXL 基金会宣告成立，并汇集了来自整个行业的创始指导成员——Arm 、富士通、谷歌、Imagination Technologies、英特尔、高通技术公司和三星等公司，以共同为所有基于开源和标准的加速器构建多架构和多供应商编程模型。

UXL 基金会对加速计算的未来有着变革性的愿景。通过构建 oneAPI 规范并利用 SYCL 和 ISO C++ 等基于行业的开放标准，我们将定义一种供应商中立的方式，通过中立性和独立性为异构架构开发软件。除此之外，社区将共同努力发展开源实现，以满足每个人的需求。

据介绍，oneAPI是一个原本由英特尔推动的，统一的、简化的编程模型，旨在简化跨多架构的开发过程（如CPU、GPU、FPGA、加速器）。其核心是核心是英特尔的 Data Parallel C++ (DPC++)——一个建立在 C++ 和 Khronos SYCL 标准之上的语言；SYCL是一种 Khronos 开放标准，自 7 年多前第一个规范发布以来，一个健康的生态系统已经随着多种实现、处理器供应商的采用以及整个开发者社区的广泛使用而不断发展。

Rod Burns表示，该基金会将继续定义核心库接口的规范，这些接口实现数学和人工智能等基本操作，并与 ISO C++ 和 BLAS 等行业标准相关。开源项目实现了该规范，并且已经拥有多供应商目标，开发人员已经从单个代码库（通常是单个二进制文件）编写了在 AMD、Arm、Intel 和 NVIDIA 处理器上运行的代码。

摆脱CDUA霸权，是最终目标？

在很多分析人士看来，UXL的成立，是这些芯片公司希望能够联合起来，打破CUDA霸权。

如文章开头所说，依赖于性能领先的芯片和CUDA建立起来的护城河，英伟达统治了AI加速器市场，且让所有人的切换都甚为艰难。

正如大家所熟知，CUDA 是一种专门为使用图形处理单元 (GPU) 加速数学密集型工作负载而开发的加速环境。Nvidia 于 2006 年推出了 CUDA，此后一直在积极开发和改进它。它现在被广泛使用，但仅适用于 Nvidia GPU。此外，CUDA 的发展以及对提高和推广 GPU 性能的狂热关注，使 Nvidia 在人工智能 (AI) 和机器学习 (ML) 模型的训练中占据主导地位。

然而，芯片巨头们不愿意坐以待毙。

正如高通人工智能和机器学习主管 Vinesh Sukumar 在接受路透社采访时表示：“我们实际上是在向开发人员展示如何从 Nvidia 平台迁移出来。”“基金会计划构建一套软件和工具，能够为多种类型的人工智能加速器芯片提供支持。该开源项目旨在使计算机代码在任何机器上运行，无论其使用什么芯片和硬件。”UXL基金会的人进一步指出。

谷歌高性能计算总监兼首席技术专家 Bill Magro 在接受路透社采访时表示：“具体来说，在机器学习框架的背景下，我们如何创建一个开放的生态系统，并提高硬件的生产力和选择。” Magro表示，谷歌是 UXL 的创始成员之一，帮助确定该项目的技术方向。

UXL 的技术指导委员会正准备在今年上半年确定技术规范。高管们表示，工程师计划在今年年底前将技术细节完善至“成熟”状态。这些高管强调，需要建立一个坚实的基础，包括多家公司的贡献，这些贡献也可以部署在任何芯片或硬件上。

UXL 计划将其资源用于解决由少数芯片制造商主导的最紧迫的计算问题，例如最新的人工智能应用程序和高性能计算应用程序。这些早期计划符合该组织的长期目标，即赢得足够数量的开发人员使用其平台。

从长远来看，UXL 最终旨在支持 Nvidia 硬件和代码。

当被问及打破英伟达人工智能主导地位的开源和风险投资软件努力时，英伟达高管an Buck在一份声明中表示：“世界正在加速。加速计算的新想法来自整个生态系统，这将帮助推进人工智能和加速计算所能实现的范围。”

根据路透要求 PitchBook 编制的定制数据显示，风险投资人和企业资金已在 93 项独立项目中投入了超过 40 亿美元。

数据显示，去年，人们对通过软件方面的潜在弱点取代 Nvidia 的兴趣有所增强，旨在挖掘该公司领导地位漏洞的初创公司在 2023 年的投资额略高于 20 亿美元，而一年前为 5.8 亿美元。来自 PitchBook。

在英伟达人工智能数据处理团队的阴影下取得的成功是很少有初创公司能够实现的。Nvidia 的 CUDA 是一款引人注目的软件，因为它功能齐全，并且在 Nvidia 的贡献和开发者社区的帮助下不断发展。

“但这并不是真正重要的事情，”财务和战略咨询公司 D2D Advisory 的首席执行官杰伊·戈德堡 (Jay Goldberg) 说。“重要的是人们已经使用 CUDA 15 年了，他们围绕它构建了代码。”

据相关报道，到目前为止，UXL Group 的开发工作主要集中在名为 OneAPI 的软件工具包上。该工具包由英特尔开发，可以编写可以相对轻松地在不同芯片之间移动的人工智能应用程序。OneAPI 基于名为 SYCL 的早期框架，该框架同样专注于简化应用程序的可移植性。英特尔通过多项附加功能扩展了该框架，其中最引人注目的是名为 SYCLomatic 的功能。它旨在将为 Nvidia CUDA 编写的软件转换为能够在其他公司的 AI 芯片上运行的 SYCL 代码。

减少将 Nvidia 支持的应用程序迁移到竞争对手芯片所需的工作量和成本，可能会提高企业使用这些芯片的可能性。从长远来看，这可能会给英伟达市场领先的显卡带来更多竞争。

到目前为止，这项工作已经得到了联盟成员公司和第三方的技术贡献。UXL基金会的技术指导委员会预计将在2024年上半年准备其人工智能编程模型的规范。该技术预计将在年底成熟。

但是，值得注意的是，AMD 和 Nvidia 并未出现在该创始人名单中。如上所述，Nvidia 拥有 CUDA，并且是市场领导者。AMD 有 ROCm，目前仅限于支持 AMD 设备。

Tirias Research 的分析人士认为，如果没有 AMD 和 Nvidia 的明确支持，UXL 基金会是否能够实现这些目标存疑。他们表示，Nvidia 目前不需要 oneAPI，因为它在 CUDA 方面处于市场领先地位。AMD 则是另一个故事。几乎没有迹象表明 AMD 的 ROCm 有任何市场动力，而且目前它只是 AMD 独有的解决方案。

附：UXL基金会成立的演示文稿

玩酷网

自研芯片，江波龙要突破魔咒

论半导体谈人生