GB300/Rubin行业交流

全产业 2025-02-19 01:17:11

Socket在芯片中的作用是什么?

Socket可以理解为承载芯片的一个工装部件,类似于盛饭的碗。它通过内部的pin针与芯片引脚接触,实现数据和信号的传递。例如,数据运算通过pin针进入GPU芯片内部进行处理,再通过引脚输出运算结果。引脚功能多样,包括供电、连接CPU或网卡等外围设备。Socket还承担了将平面的芯片连接到主板上的任务,使得GPU或CPU能够实现与主板之间的数据交互。采用Socket方式(插槽方式),而不是以前的SMT(贴片焊接)方式,芯片可以方便地插入 Socket 插座,也能在需要维修、升级等情况下轻松拔出,便于硬件的组装、维护和升级。

GPU芯片通常有多少个引脚?

GPU芯片的引脚数量通常在1,000个以上。这些引脚分布在单颗GPU die上,用于实现供电、数据传输及外围设备连接等功能。以GB200为例,一个节点中包含两组super chip,每个super chip上集成两个GPU die和一个CPU die。因此,一个GB200节点总计包含四个GPU die和两个CPU die。在这种配置下,每个节点需要使用四个GPU socket和两个CPU socket来完成硬件连接。

当前Socket封装形式与传统封装形式有何不同?

该封装并非 SMT,因为 SMT 是贴片工艺。此封装可理解为台积电对整个 GPU 芯片进行封装。芯片完了以后,在OEM厂商端做主板,再去做GPU芯片组装。有了socket以后,其实不用单独去做SMT工艺把芯片焊到主板上,而是用socket形式直接组装,拆卸相对来说会比较方便。

SMT工艺由哪些厂商负责?其应用情况如何?

SMT工艺前期主要由富士康负责,例如早期H卡和A卡产品。但这些产品并未采用socket,而是将GPU直接焊接到底板上,并通过外框加固以防止运输过程中损坏。例如GB200系列,其设计中没有pin针,而是直接焊接到主板,并辅以外框保护,里面没有引脚。然而,在后续的产品,包括Rubin等,将逐步采用插槽式socket设计,插槽式Socket设计具有多项优势,包括简化组装流程、提高市场适配性以及降低对单一厂商生产能力的依赖。这种设计允许OEM厂商根据NV授权自行生产主板,从而打破原先纬创或富士康等少数厂商垄断底板制造的局面。同时,大型OEM厂商具备成熟SMT工艺水平,可以确保生产质量一致性。而对于小型厂商,由于经验不足,其技术水平可能难以达到要求,因此仍需进一步提升制造能力才能参与竞争。

在早期GPU卡及其底板的生产中,为什么选择纬创或富士康作为供应商?

在早期阶段,由于整体需求量较小,将有限的产能分配给多个厂商会导致端到端成本上升。因此,通常选择一到两家供应商以降低供应链压力。例如,在2023年,纬创因产能不足,将部分底板生产转移至富士康新增的产能。对于SMT工艺而言,即使是几百万片的订单量,相对来说也不算大。

主板市场放开后,对ODM厂商利润率有何影响?

如果未来主板市场放开,各大ODM厂商将能够自主完成更多部件的设计和制造,从而提升利润率。对于售价在290万至300万美元之间的机柜产品,ODM厂商整体纯利润在7万至10万美元左右。如果主板授权放开,预计净利润可提升30%左右。这种提升与具体厂商相关,例如富士康因涉及更多部件,其利润率可能高于其他竞争者。

主板授权放开的具体机制是什么?

主板授权需要英伟达(NV)的许可,同时需通过美国政府审查。这包括客户备案和政策合规性检查,例如BIS调查等程序。只有通过审查后才能正式交付产品,如GB200或GB300。此外,美国政府对某些企业(如Supermicro)的严格审查已导致其交付周期延长数月,有时甚至导致订单取消。未来要拿到NV的授权,同时通过美国政府的审查,才可以正式销售。因为客户都要去做备案,而且必须要得到政府同意,才可能销售GB300或GB200等。

主板授权放开后ODM利润提升的逻辑是什么?

目前ODM厂商主要负责研发、集成、生产测试、包装及运输等环节,但核心部件多为外采。ODM厂商端在这个GB200上,能够发挥的利润最大的部分是在整个集成测试这块。这部分研发投入很多资源,在前期配合NV客户端做需求对接、前期研发测试的工作。该投入的成本会分摊到报价中。而例如GB Superchip、液冷组件、冷板、manifold、电缆、DPU网卡及风扇等均由外部采购。而GB200阶段的ODM厂,更像是集成服务提供者,其前期研发投入主要集中在需求对接和测试环节,而非核心技术开发,因此,其整体利润空间较小,富士康可能多一些。

Rubin相比GB300有哪些技术更新?

Rubin预计将在2026年推出,其主要特点包括:插槽设计仍采用socket工艺;网络端将引入光缆互联CPO技术,以替代铜缆连接,当然这还在研发中。这种设计可显著减少信号衰减并增加传输距离;电源部分功率将从现有5.5千瓦升级至约10千瓦,以满足更高功耗需求。目前GB200和GB300使用24个或36个5.5千瓦电源模块,而Rubin将采用更高功率电源以提高可靠性和性能,基于单个电源功率增大,所以电源数量会减少。能够减少单机柜内电源模块的数量,从而释放更多空间用于计算节点(compute)和NV Switch节点。这种设计为机柜提供了更大的资源空间,支持强互联架构。以Rubin机柜为例,其通过多个机柜组网形成一个整体GPU系统,支持288块GPU卡的互联运行。这种设计显著优化了空间利用率和计算能力。铜缆的G故事越来越多,君子不立于危墙之下。

刚才提到的24和36个电源配置,是GB200和GB300的区别吗?

不是。GB200,最低大概是24个电源,5.5千瓦。而GB300系列则根据业务负载需求可选择24个电源、5.5千瓦的电源。对于负载较高(90%-100%)且对可靠性要求较高的场景,通常会增加冗余配置以避免因单点故障导致运算中断或关机。

所以GB300还是用200kW的方案?

是的。电源方案不会有太大的变化。它可以选5.5千瓦乘以24,也可以选用5.5千瓦乘以36,甚至乘以48,根据业务去选择。但是不能低于24个。然而,由于成本因素(每台5.5千瓦电源约1万元人民币或2000美元),客户通常选择24或36台作为主流方案,而48台配置较少见。最近有传MGMT在WW设立研发中心。

Rubin如果提升到10kW,大概会有多少个电源?

目前单个机柜应该不会少于16个电源。因为它需要去并柜,相当于一个大机柜。应该也需要四个机柜、四个电源框,单个电源框大概是16个电源。一共加起来应该是64个左右电源。

为什么要乘以4?

里边其实分了几个电源框,并在一起。相当于没有这么大的机柜去投放这么多GPU芯片,必须要分柜运行。运输、工厂测试都是分开来的,最后交付时,在客户机房会把它并柜,并成一个288柜的GPU。而客户购买的时候,是不能分开买的,最低是288。因为里边的一些参数、互联,都是按照288来去跑。所以和GB系列还是有差异的。GB200或GB300,可以单独买一个机柜,但Rubin下一代,可能是买一个并柜,相当于一个主柜。

Rubin系统是否采用高压直流(HVDC)供电方案?

Rubin系统正常而言会采用高压直流供电方案。与传统交流供电相比,高压直流能够显著提升能源转换效率并降低能耗成本。服务器是靠电源来支撑的,电源如果支持HVDC高压直流,那正常情况下是可以的,之前的一些产品部署的场景比较多,核心可以用,中小机房也可以用。而中小机房不太配套HVDC,例如变压器是不支持高压直流的,整个机房设也没有具备相对应的设施,所以未来Rubin是建立在核心数据中心的、核心机房里,在这种情况下,它具备这种高压直流的特性。

高压直流技术在Rubin中的应用比例如何?

Rubin系统,个人预计将实现100%的高压直流覆盖。这是因为其整体功耗极大,高压直流不仅能有效降低能源损耗,还能满足超大规模计算对稳定性和效率的需求。

高压直流属于柜外方案,更多由CSP厂商决定,Meta好像是确定的,其他三家还不确定。您是觉得到时候其他三家也会采用这个方案吗?

正常而言,产品必须要支持,不管机房具备不具备这样的环境,机器是具备的。无论客户机房是否具备高压直流条件,产品本身必须支持该功能,以避免因不兼容而导致部署问题。因此,在配置设计和交付中,已将支持高压直流作为标准化要求。目前的配置建议均为全面支持高压直流。这是从ODM这边实施。

高压直流的支持从哪一代产品开始实施?

从GB系列开始普及,其中H200部分型号已经具备该功能。在更早期的产品中,大多数并未提供此项支持。个人的推测是,Rubin系列预计将实现100%采用高压直流方案,这是从客户需求出发。而如果有些客户基于成本考量,可能公司会针对特定客户提供不带高压直流功能的定制版本。高压直流在总成本上较普通方案增加约5%。

GB300是否会采用高压直流?

后续升级方案中将逐步引入对高压直流的支持。目前5.5千瓦电源已支持直流能力,但具体实施仍需视主板设计而定。授权后,各ODM厂商将根据实际需求进行选型。整体来看,高压直流是当前推广方向之一。目前政府政策对节能减排提出更严格要求,同时电力资源紧张问题日益凸显。例如,美国市场在2024年出现了电力供应紧张状况,新建机房资源竞争激烈。在有限电力条件下,高压直流能够提高部署密度,从而提升整体效率。如果设备不具备该功能,将限制其在资源受限环境中的应用潜力。

GB300与GB200相比,其主板设计有哪些变化?

GB300主板面积较GB200增加约30%。GB200基于super chip架构,其部件高度集成,以便于运输,而GB300则通过扩展布局,将原super chip上的部件分布到更大的主板上。此外,GB300新增一个socket接口,这进一步扩大了主板面积。这种设计有助于改善散热性能,但不能过大,因为需控制面积增长幅度以确保平面度,否则可能导致贴片元件失效或虚连接等问题。

新增socket对成本有何影响?

新增socket提升了价值量。从单个部件来看,CPU socket价格通常为几十美元,而GPU socket因pin针数量更多、材质要求更严格(如耐温性、可靠性及镀金含量)以及承重需求较大,其价值量超过CPU socket。这些特性使得GPU socket成为主板上除CPU、GPU外昂贵的组件之一。

当前GPU socket的样品采购价格大多在数百美元范围内,后续随着量产规模扩大,预计价格会有所下降。量产和引入第二供应商后,GPU socket的单价可能降至约100美元左右。然而,即使降价,该价格仍较高,这主要与其精密度和材质要求相关,与CPU socket存在一定差异。

GPU socket的定价是基于什么单位计算?如果按整机柜计算,总成本如何估算?

GPU socket的定价以每组三颗die为单位。如果按整机柜计算,每台机柜需配置72组GPU die和36组CPU die。以量产后的预估价格计算,GPU部分为100美元×72,CPU部分为50美元×36,总计成本约为10,800美元。此外,CPU部分未来也可能降价,但预计不会低于20-30美元。

GPU socket的组成结构是什么?pin针是否包含在socket采购中?

GPU socket由底座、外围框架及pin针组成。在采购时,公司会从socket厂商采购,socket厂商还会有一些pin针的供应商。

是否了解和林微纳?

前期听说工厂和实验室测试有采购他们,但是后边量产的话,只能说有机会,他在国内应该是也有供货一些CPU socket。该公司前期只供应pin针,但他其实也有做socket的能力。

pin针在socket中的成本占比是多少?其单独售价如何估算?

pin针成本占整个socket价格的大约70%。以量产后100美元的GPU socket单价为例,其中pin针部分约70美元。这一比例反映了pin针对精密度和数量要求较高的重要性。

当前市场上有哪些主要socket厂商参与竞争?

主要参与者包括台湾地区企业如LOTES,以及其他如鸿腾精密等。其中鸿腾精密是富士康旗下子公司,其产品更多用于富士康内部供应链,而外部客户则更倾向选择LOTES等厂商。目前使用较多的是台湾LOTES生产的产品。

富士康为何能够降低其内部使用socket产品的成本,而外部客户面临更高费用?

富士康通过自有工厂或业务单元(BU)实现端到端生产,包括开模、采购pin针及组装,从而显著降低了整体制造成本。而外部客户由于依赖外购模式,其生产环节分散导致总成本相对较高。

GPU和CPU领域中,各类socket及pin相关产品毛利率与净利率分别是多少?

对于GPU/CPU领域中的socket产品,其毛利率通常在20%-30%之间,净利率略低但不低于15%。而对于pin针产品,由于技术含量较高且需求稳定,其净利率可达20%左右,高于socket成品。这种差异源自两者在制造复杂性及附加值上的不同定位。当然前期一些测试样品,价格相对来讲会贵一些。

当前pin针市场的竞争格局如何?主要厂商的市场地位如何分布?

在pin针领域,鸿腾精密、和林微纳以及泰科等厂商均具备生产能力。鸿腾精密由于隶属于富士康集团,其产品在富士康内部的使用占比较高,因此市场份额相对领先。其次是泰科,该公司不仅直接供应socket,还能提供pin针,服务于下游客户。而和林微纳则处于测试验证阶段,其产品在量产环节是否被采购尚不确定。整体来看,台系厂商对大陆厂商存在一定程度上的排斥,即便后者在性能和价格上具有优势,但仍未成为优选供应商。

和林微纳的pin针价格与台系及其他国际厂商相比有何差异?

和林微纳的pin针价格较台系及泰科等国际厂商低约10%。这一成本优势主要来源于人工成本的差异。台湾地区的人力成本约为大陆地区的三倍,这使得大陆企业能够以更低的人力支出实现同样甚至更高的利润率。然而,由于海外企业通常要求较高利润率,这种成本结构差异进一步拉大了两者之间的价格竞争力。

和林微纳目前是否已涉足GPU相关pin针业务?其进展如何?

和林微纳目前已开始涉足GPU相关pin针业务,并大约11月份向英伟达(NVIDIA)送样进行测试。这些样品主要用于英伟达研发部门进行实验室测试,但最终量产与否尚未确定。据推测,相关测试结果可能会在3月左右公布。

其他主要厂商(如鸿腾精密和泰科)在GPU pin针领域的发展情况如何?

鸿腾精密和泰科也正在进行GPU pin针相关产品的测试工作,与和林微纳类似,其送测时间集中在12月左右。目前来看,由于非大陆背景,这两家企业被选为供应商的概率较大。然而,在未来进入大规模量产阶段后,为降低整体成本,下游客户可能会考虑引入包括和林微纳在内的大陆供应商。和林微纳之所以送样进度比他们快,是因为大陆厂商效率比较高。

大陆厂商未来在pin针领域的发展机会如何?存在哪些挑战?

大陆厂商未来有望通过降本增效方案获得更多机会。例如,在富士康之外,大陆地区还有华硕、纬创等拥有大量工厂资源的大型制造企业,这为国内供应链引入提供了潜力。然而,目前由于研发资源有限且前期订单量较小,大陆企业尚未被广泛采用作为二供。在短期内,大规模引入国内供应链仍需等待实际需求增长以及下游客户完成初步选型后才能实现。

GB300确定要用socket了吗?测试结果是在3月份?

是的,要用。大概3月份出来。自3月份起,各ODM厂商需要组装整机并进行相关测试,以确保能够在5月至6月向客户提供样机。如果不及时完成这些验证,将对整体进度产生较大影响。3月份后,整机需要搭载包括pin针等组件在内的多个部件进行测试。所以测试结果可能在3月份。而且关键部件的采购周期普遍较长。例如,电源的采购周期约为两个月,其他部件也基本维持在两个月左右。此外,包括超级电容(超容)等组件也需要按计划纳入整机,但前期采购量相对较小,主要用于满足5月至6月样机和小批量生产需求。

超级电容是否会作为标配提供给客户?

超级电容(BBU)通常作为选配项,不一定会随样机一同送测给客户。未来渠道客户中,中小型客户可能更倾向于选择超级电容,因为这类客户通常缺乏对机房配置的专业判断能力,因此选配概率较高。

大批量生产何时启动?

大批量生产预计将在第三季度启动,并经历一个爬坡阶段,大致时间点落在8月至9月之间。在此之前,样机会经过1至2个月内部测试,然后ODM送给客户测试,大约5月至6月,完成交付后,将于7月至8月进行内部验证,通过后方可进入大规模交付阶段。在ODM送测试阶段,量不会特别大,总共ODM的量可能在几百柜,分摊到每个ODM上,估计是几十柜,而且这几十柜可能还要分不同的客户。

0 阅读:3

全产业

简介:感谢大家的关注