英伟达 (Nvidia) 是全球领先的人工智能 (AI) 芯片制造商,其旗下的A100、A800、H100、H800等数据中心产品在AI计算领域拥有强大的性能和优势。然而,近日,美国对于中国的半导体打压进一步收紧,这些高端AI芯片一律被禁止向中国市场出售,其中还包括了专为中国市场定制的A800和H800芯片。这对于英伟达和中国的AI企业都是一个巨大的打击,也给国产GPU厂商带来了机遇和挑战。
英伟达A800和H800是什么?英伟达A800和H800是英伟达在2022年三季度推出的特供中国版的显卡芯片,是A100和H100的替代品。A100和H100是英伟达的最先进的AI芯片,基于安培 (Ampere) 架构,拥有6912个CUDA核心、432个Tensor核心、5120-bit 40GB或80GB HBM2内存等规格,算力高达312 TFLOPS (FP16)或1248 TOPS (INT8),支持NVLink互连技术,可以实现多卡扩展和并行计算。
A800和H800是为了符合美国出口管制政策而精简了部分规格的芯片,它们保留了A100和H100的核心数、内存容量和算力,但是将NVLink互连带宽从600GB/s降低至400GB/s,这样一来,A800和H800就更适合组建单路工作站,而不适合多路扩展并行。
英伟达发言人曾在一份声明中介绍道:「英伟达 A800 GPU 在 2022 年第三季度投产,是英伟达 A100 的另一个替代品,供中国客户使用。A800 符合美国政府对减少出口管制的明确测试,并且不能通过编程来实现性能超越。」
英伟达A800和H800为什么被禁售?据外媒VC最新消息,美国商务部正在考虑的新限制措施甚至将禁止在没有许可证的情况下销售A800和H800芯片。这意味着,英伟达等制造商将无法向中国客户运送这些AI芯片,除非获得美国政府的特别许可。
这是美国对中国的半导体打压的最新一轮,旨在阻止中国在AI领域的发展。去年9月,美国禁止英伟达等公司向中国出口高端GPU芯片,主要限制显卡算力及带宽,算力上限是4800 TFLOPS,带宽上限是600 GB/s。这导致英伟达的A100和H100等芯片无法进入中国市场,而A800和H800则是为了应对这一禁令而推出的。
据悉,英伟达原本有中国客户2024年多达50亿美元的数据中心GPU订单,现在都已被迫取消,而且美国根本没有给予任何缓冲期,英伟达已生产的产品也不能出货给中国客户。这对于英伟达来说是一个巨大的损失,也对中国的AI企业造成了严重的影响。
国产GPU能否顶起一片天?面对美国的打压,中国的AI企业和国产GPU厂商都面临着巨大的挑战和压力。一方面,中国的AI需求和算力需求在不断增长,而英伟达等外国芯片的供应又受到限制,导致市场缺货和价格暴涨。另一方面,国产GPU的技术水平和生态建设还有不小的差距,要想替代英伟达等芯片,还需要加快研发和创新,提高性能和兼容性,扩大规模和应用。
目前,国内已有一批国产GPU厂商,包括寒武纪、华为海思、百度昆仑、燧原科技、壁仞科技、天数智芯、摩尔线程、沐曦、海光、景嘉微等,都在努力推出自己的AI芯片产品,试图填补市场空缺,抢占市场份额。然而,这些国产AI芯片和英伟达的芯片相比,还存在一定的差距,无论是在性能、工艺、架构、软件、生态等方面,都还有很大的提升空间。
据《电子工程专辑》发布的《45家国产AI芯片厂商调研分析报告》显示,在调研分析了瀚博半导体、燧原科技、平头哥、华为海思、紫光展锐、寒武纪、地平线等国内AI芯片厂商后,得出一个结论:「国产AI芯片公司在高性能和先进工艺AI芯片的设计方面还面临诸多挑战,而且在AI芯片价值链的EDA和IP环节上还有不小的差距。」
综合业界测评和实际部署的情况,以下是部分国产AI芯片的现状:
华为海思的昇腾910是业界算力最强的AI处理器,芯片基于自研华为达芬奇架构3D Cube技术,实现业界极佳AI性能与能效。测试数据显示,昇腾910算力是英伟达V100的两倍,略超A100 80GB PCIe版本。但是,昇腾910不支持32位浮点,而目前大模型训练几乎都要使用32位的浮点,所以华为昇腾芯片只能利用华为开发的框架(如MindSpore),在加上优化好的大模型,比如盘古CV。受到美国制裁的影响,华为昇腾的发展进度受到巨大影响,目前只能用于华为自身生态中的大模型业务。
百度昆仑的第二代产品搭载GDDR6高性显存,支持256TOPS (INT8)算力,和V100差距缩小,可以做训练和推理。第三代昆仑芯产品,预计明年上半年发布。百度昆仑芯片主要用于百度的自身业务,如搜索、智能小程序、智能云等,也向外部客户提供昆仑云服务。 百度昆仑芯片支持TensorFlow、PaddlePaddle等主流框架,也有自己的昆仑框架,可以实现多种模型的训练和推理。
寒武纪的MLU270是基于寒武纪第三代架构的AI芯片,支持INT8、INT16、FP16等精度,算力达到128TOPS (INT8)或16TFLOPS (FP16),内存容量为16GB,支持PCIe 4.0接口。 MLU270主要用于云端和边缘端的AI推理,支持PyTorch、TensorFlow、Caffe等框架,也有自己的Neuware平台,可以实现多种模型的推理。 寒武纪的MLU290是基于寒武纪第四代架构的AI芯片,支持INT4、INT8、INT16、FP16等精度,算力达到512TOPS (INT8)或64TFLOPS (FP16),内存容量为32GB,支持PCIe 5.0接口。 MLU290主要用于云端的AI训练和推理,支持PyTorch、TensorFlow、Caffe等框架,也有自己的Neuware平台,可以实现多种模型的训练和推理。
燧原科技的Thinker系列是基于燧原自研的神经网络处理器 (NPU) 架构的AI芯片,支持INT8、INT16、FP16等精度,算力达到128TOPS (INT8)或16TFLOPS (FP16),内存容量为16GB,支持PCIe 4.0接口。 Thinker系列主要用于云端和边缘端的AI推理,支持TensorFlow、ONNX等框架,也有自己的Thinker SDK,可以实现多种模型的推理。
壁仞科技的BR280是基于壁仞自研的神经网络加速器 (NNA) 架构的AI芯片,支持INT8、INT16、FP16等精度,算力达到256TOPS (INT8)或32TFLOPS (FP16),内存容量为16GB,支持PCIe 4.0接口。 BR280主要用于云端和边缘端的AI推理,支持TensorFlow、ONNX等框架,也有自己的BR SDK,可以实现多种模型的推理。
天数智芯的TS-1是基于天数自研的神经网络计算单元 (NCU) 架构的AI芯片,支持INT8、INT16、FP16等精度,算力达到128TOPS (INT8)或16TFLOPS (FP16),内存容量为16GB,支持PCIe 4.0接口。 TS-1主要用于云端和边缘端的AI推理,支持TensorFlow、ONNX等框架,也有自己的TS SDK,可以实现多种模型的推理。
摩尔线程的MorphCore是基于摩尔线程自研的神经网络处理器 (NNP) 架构的AI芯片,支持INT8、INT16、FP16等精度,算力达到256TOPS (INT8)或32TFLOPS (FP16),内存容量为16GB,支持PCIe 4.0接口。 MorphCore主要用于云端和边缘端的AI推理,支持TensorFlow、ONNX等框架,也有自己的Morph SDK,可以实现多种模型的推理。
沐曦的MX-1是基于沐曦自研的神经网络加速器 (NNA) 架构的AI芯片,支持INT8、INT16、FP16等精度,算力达到128TOPS (INT8)或16TFLOPS (FP16),内存容量为16GB,支持PCIe 4.0接口。 MX-1主要用于云端和边缘端的AI推理,支持TensorFlow、ONNX等框架,也有自己的MX SDK,可以实现多种模型的推理。
海光的HBM-1是基于海光自研的神经网络处理器 (NPU) 架构的AI芯片,支持INT8、INT16、FP16等精度,算力达到256TOPS (INT8)或32TFLOPS (FP16),内存容量为16GB,支持PCIe 4.0接口。 HBM-1主要用于云端和边缘端的AI推理,支持TensorFlow、ONNX等框架,也有自己的HBM SDK,可以实现多种模型的推理。
景嘉微的JH-1是基于景嘉微自研的神经网络加速器 (NNA) 架构的AI芯片,支持INT8、INT16、FP16等精度,算力达到128TOPS (INT8)或16TFLOPS (FP16),内存容量为16GB,支持PCIe 4.0接口。 JH-1主要用于云端和边缘端的AI推理,支持TensorFlow、ONNX等框架,也有自己的JH SDK,可以实现多种模型的推理。
从上述国产AI芯片的情况可以看出,国产AI芯片在性能、工艺、架构、软件、生态等方面,都还有很大的提升空间。 目前,国产AI芯片主要还是以推理为主,训练为辅,而且多数只支持INT8和FP16等低精度,不支持FP32等高精度,这限制了国产AI芯片在大模型训练和复杂应用场景的应用。 此外,国产AI芯片的软件和生态建设也还不完善,缺乏统一的标准和接口,导致不同厂商的芯片之间的兼容性和互操作性较差,给用户带来了使用成本和迁移难度。
因此,国产AI芯片要想顶起一片天,还需要加快研发和创新,提高性能和兼容性,扩大规模和应用,建立完善的软件和生态平台,形成自己的核心竞争力,才能真正替代英伟达等外国芯片,满足中国的AI需求和算力需求。
结语英伟达中国特供A800和H800芯片被禁售,是美国对中国的半导体打压的最新一轮,也是英伟达和中国的AI企业的一次重大挫折。这给国产GPU厂商带来了机遇和挑战,要求他们加快研发和创新,提高性能和兼容性,扩大规模和应用,建立完善的软件和生态平台,形成自己的核心竞争。
只要有足够的时间,国产gpu是能够逆袭的
最好别使用英伟达的东西
我觉得使用海光的东西是完全可以替代英伟达的
平替英伟达的首选当属海光信息
这里面介绍的很多国产AI芯片都是不错的
平替英伟达的首选我觉得是海光
国产gpu是能够撑起一片天的
我国AI需求和算力需求都很大
有技术才有自我核心竞争力
有技术才有自我核心竞争力
中国AI企业正面临机遇和挑战并存的阶段
国产刚好可以弥补市场缺货需求
海光的产品在国产gpu里面就非常具有代表性
英伟达能在市场上有霸主地位,也离不开中国市场
英伟大的市场占有率要被吞噬了
那不刚好可以多多选择国产芯片
国产芯片可以趁此机会提升自我能力
为国产gpu的崛起加油
海光的优势真的不是一言两语就能说的清楚的
国产刚好可以利用这一次机会发展