AI服务器行业概览

全产业 2024-09-27 00:18:43
01 AI服务器行业概览

传统服务器主要以CPU为算力提供者,在运作的过程中需要引入大量分支跳转中断处理,不能满足AI时代的需求。

AI服务器由传统服务器演变发展而来,是专门设计用于执行人工智能、机器学习、深度学习等计算密集型任务的高性能服务器。

AI服务器可以通过收集数据、分析数据和模拟数据来学习如何有效地运行服务器,也可以根据不同的应用程序和用户请求来调整服务器的性能,从而提供更好的服务器性能。

相较于通用服务器具备更强的计算能力,AI服务器主要采用加速卡为主导的异构形式,更擅长大吞吐量的并行计算。

从服务器的硬件架构来看,AI服务器通常配备有高效能的中央处理器(CPU)、图形处理器(GPU)、张量处理器(TPU)或专用的AI加速器,以及大量的内存和存储空间。

AI服务器可以多种组合方式,搭载多个GPU、CPU以及大算力AI芯片。

在异构方式上,AI服务器可以为CPU+GPU、CPU+FPGA、CPU+TPU、CPU+ASIC或CPU+多种加速卡。

AI服务器分类方式:

随着服务器集成需求增量从 CPU 向 GPU 切换, AI 服务器系统集成市场迎来整体增量及格局变迁。

服务器行业演进历程:

资料来源:行行查

02 AI服务器产业链

AI服务器产业链上游主要是算力及零部件厂商,中游是服务器厂商,下游客户包括数据中心、政府、各类企业等。

AI服务器产业链:

资料来源:东海证券

AI服务器上游核心组件包含算力芯片GPU(图形处理器)、DRAM(动态随机存取存储器)、SSD(固态硬盘)和RAID卡、CPU(中央处理器)、网卡、PCB、高速互联芯片(板内)和散热模组等。

AI算力芯片

AI芯片是AI服务器算力的核心,也被称为AI加速器或计算卡。

是专门用于处理人工智能应用中的大量计算任务,针对AI算法(如深度学习等)进行特殊加速设计的芯片,占AI服务器成本约70-75%。

AI芯片在云端兼顾执行人工智能的“训练”与“推理”任务,而在终端主要负责执行“推理”操作。

训练芯片大多部署于云端,要求训练芯片应具有强大的单芯片计算能力;推理芯片大多会部署于云端和边缘侧,对算力的要求较低。

根据技术架构和应用需求,AI芯片可分为GPU、FPGA、ASIC芯片三大类。

资料来源:浪潮信息官网、宽泛科技、CSDN、51CTO、浙商证券、行行查

GPU

GPU是AI服务器的核心,约占近90%AI芯片市场份额,其价值量占AI服务器高达约70%。

GPU是专为处理大量的并行任务而设计的处理器,通常用于图形渲染、数据并行计算以及深度学习等领域,其通用程度高、软件生态丰富、制造工艺相对成熟。

英伟达是全球人工智能计算领域的领导者及全球GPU市场的绝对龙头。

JPR统计数据显示,从出货量角度来看,2023年在全球独立显卡市场,英伟达以80%的市占率处于绝对领先地位。

在2024年GTC大会上,英伟达推出全新Blackwell架构GPU芯片,基于台积电4nm工艺制造,并采用了双芯片设计,芯片间的互联速度高达10TB/s,总晶体管数量达2080亿个,同时搭配8颗HBM3e内存,内存容量达192GB,带宽达到8TB/s,相比Hopper架构平台提升明显。

英伟达芯片发布节奏:

资料来源:Semianalysis 援引英伟达

国产算力GPU的主要厂商包括华为昇腾、海光信息、寒武纪、平头哥、天数智芯、燧原科技、摩尔线程、壁仞科技、沐曦等公司。目前国产算力GPU芯片在推理场景应用较多且具备一定竞争力,部分产品的单卡指标和参数已经与英伟达产品接近或持平。

FPGA

FPGA芯片是可编程的芯片,允许开发者按需定制硬件,在需要特定算法优化时非常有用,可根据算法迭代调整硬件配置。

FPGA提供了一种介于GPU和ASIC之间的灵活解决方案,它的可编程性使硬件能够在算法迭代时进行有效优化,同时在开发周期上比ASIC更为短暂。FPGA市场供给主要被美国赛灵思(AMD收购)、阿尔特拉(英特尔收购)两家企业垄断,市占率分别为49%和34%,此外美国的Lattice、Microsemi也占据一定市场份额。

国内主要布局厂商包括复旦微电(率先推出亿门级FPGA和PSoC芯片)和紫光国微(国内特种集成电路行业领先者,产品覆盖500多个品种)、安路科技(国内民用FPGA头部厂商)。

ASIC

ASIC是为特定AI应用定制的芯片,能在性能和能效上提供最佳的表现,该类芯片是固定设计,针对一种特定任务或算法进行了优化。

一般来说,ASIC的专业性强,性能高于FPGA。但是可编程性和灵活性较弱,且开发周期较长,且需达到一定生产规模才能实现成本优势。

主要AI芯片对比:

资料来源:智能计算芯世界、行行查

服务器通常具有大量的存储空间和内存,以便存储和处理大量的数据网络能力,附带高速和低延迟的网络连接,以便快速传输大量的数据。

当前AI服务器需求核心在于更大带宽的存储,因此带来存储技术路线变革。

HBM

AI服务器主要使用的存储器除了内存条和固态硬盘外,新增HBM搭配GPU使用,当前主流 GPU芯片的 HBM 用量提升。

HBM,即高带宽内存,是一种新兴的DRAM解决方案,解决了AI发展的存储墙问题。

可以理解为与CPU或SoC对应的内存层级,将原本在PCB板上的DDR和GPU芯片同时集成到SiP封装中,使内存更加靠近GPU。使用HBM可以将DRAM和处理器之间的通信带宽大大提升,从而缓解这些处理器的内存墙问题。

GPU中HBM提供存储:

资料来源:Applied Materials analysis

由于先进制程GPU、GDDR颗粒、2.5D/3D封装技术与产能局限,全球高端HBM呈现寡头垄断格局,三大供应链厂商为SK海力士、三星、美光。

2024年三家国际大厂都将主要量产HBM3与HBM3E,HBM3产品占有率将达到60%以上。

目前,SK海力士仍然是主要供应商,与美光一起,都使用1betanm制程,并且都已开始向英伟达供货。三星使用1alphanm制程,预计于年中开始交付。

此外,据TrendForce,HBM4预计规划于2026年推出,在堆栈的层数上HBM4除了现有的12层外,也将再往16层发展。

HBM主要生产商技术路线图(2022-2026):

资料来源:trendforce

HDD/SSD

AI服务器带来本地存储容量大幅提升,本地存储的选择方案包括HDD和SSD。

硬盘HDD满足大容量的长时存储需求,在服务器中用于数据缓存驱动和操作系统驱动,服务器硬盘一般与RAID(独立磁盘冗余阵列)卡搭配使用。

SSD采用闪存技术来存储数据,相比HDD具有更快的读写速度和更短的访问时间,适用于需要快速随机访问的应用中,如虚拟化、数据库和Web服务器。

数据中心级SSD已不再是一个硬盘,而是一个具备处理、缓存、计算、安全保护的小型系统。

SSD的主要硬件组件包括NANDFlash、主控芯片和DRAM,核心软件为企业级SSD的固件。

存储IC&存储模组供应链:

资料来源:华金证券、行行查

内存接口芯片

内存接口芯片是服务器内存模组的核心逻辑器件。

其主要作用是提升内存数据访问的速度及稳定性,满足服务器CPU对内存模组日益增长的高性能及大容量需求。

内存接口芯片处于服务器产业链上游,在DDR4及之前仅用于服务器,DDR5及之后也可供应PC、笔电,厂商出货与下游服务器采购周期密切相关。

内存接口芯片行业相对封闭,前期需要与内存厂商、服务器厂商进行广泛的互操作测试,认证壁垒高且周期较长,新进入难度较大。

自DDR4时代开始,行业集中度进一步提升,TI、Inphi等厂商相继退出市场,自此内存接口芯片市场参与者仅剩澜起科技(中国),瑞萨和Rambus三家。

03 AI服务器竞争格局

服务器制造商主要分为ODM厂商和品牌厂商。

服务器相关组件准备完成后,将由ODM厂商进行组装代工,再送至品牌服务器厂商处销售,或者是ODM厂商不通过品牌服务器厂商直接与下游(通常是CSP)客户合作,根据客户的需求进行定制化生产。

ODM代表厂商包括广达、超微、工业富联、英业达、纬创、Supermicro等,这些厂商与云端业者、上游芯片厂商深度绑定,有稳定的供应链、快速交付能力以及较低售价等优势。

基于低成本和快速部署服务器以建设大规模数据中心的考量,近年云端业者与ODM厂商合作日益频繁。

国内服务器品牌厂商在AI服务器市场占据优势。据IDC数据,2023年浪潮、新华三、宁畅销售额位居前三,占据70%以上的市场份额。

从2017年开始,浪潮AI服务器一直保持超过50%的市场份额,稳居市场第一。2022年浪潮AI服务器在AI性能评测竞赛MLPerf中获得49个冠军;2023年浪潮推出最新一代融合架构的AI训练服务器NF5688G7,较上代平台大模型实测性能提升近7倍。

新华三AI服务器覆盖各训练负载要求,主要产品型号包括R4900G5、R5300G5、R5500G5等,在MLPerf训练及推理测试中共斩获86项世界第一。

宁畅AI服务器如X640系列,支持新一代Ampere架构A100GPU,具备超强算力,性能可达每秒4亿亿次。

处理器方面,浪潮信息及宁畅产品主要通过搭建四代英特尔CPU+英伟达H800GPU超高算力组合,华为的昇腾系列和鲲鹏系列服务器主要搭载自研鲲鹏处理器及昇腾处理器,中科曙光搭载龙芯处理器满足大算力需求。

中科曙光是亚洲第一大高性能计算机厂商,AI服务器主要采用海光/寒武纪芯片,已和百度“文心一言”展开合作,为其产业化应用提供算力支持。

04 AI服务器应用端

AI服务器的下游应领域用包括云服务提供商(CSP)、运营商、政府、教育、金融等,其中全球几大CSP是AI服务器最主要的采购方,中美科技巨头是主要买家。

从采购份额来看,2023年北美四大云端供应商Microsoft、Google、Meta、AWS合计AI服务器采购量占比约66%。其中,又以搭载英伟达GPU的AI服务器机种占大头,其GPU服务器占整体AI市场比重高达6-7成。

全球 CSP 对高阶 AI 服务器需求占比:

资料来源:集邦咨询

中国AI采购量逐年增长,字节跳动、腾讯、阿里巴巴、百度等科技巨头占比靠前。

此外,三大运营商AI服务器招标进程加速,有望带动AI服务器需求持续释放。

中国移动2024年至2025年新型智算中心采购招标,计划采购人工智能服务器7994台及配套产品、白盒交换机60台。此外,中国电信于2023年10月采购了4175台AI服务器,并于2024年7月公告启动2024-2025年服务器集采,预估采购量为15.6万台,其中G系列,即国产化系列数量达到10.53万台,占比达到67.5%;2024年3月,中国联通发标采购2503台AI服务器。

整体而言,在国内数字基础建设及需求量不断上升的大背景下,我国AI服务器市场有望持续稳定发展。

0 阅读:1

全产业

简介:感谢大家的关注