一文看懂GTC英伟达都发了什么这次老黄没练刀法改玩积木

【锚思科技讯】北京时间22日晚上开始的GTC 2022开发者大会上，老黄带来了新一代架构和核心，这次是面向HPC高性能计算、AI人工智能的“Hopper”，核心编号GH100。与之同时发布的还有基于新核心的加速计算卡H100、AI计算系统DGX H100、Grace CPU处理器、Grace Hopper加速计算系统、Grace CPU Superchip等。

GH100核心

此前传闻GH100核心将采用台积电的5nm工艺，因为上一代核心用的是7nm工艺。没想到NVIDIA直接跳过5nm，采用定制版台积电最先进的4nm工艺。CoWoS 2.5D晶圆级封装，单芯设计，集成800亿个晶体管。

完整版GH100核心由8组图形处理集群（GPC）、72组纹理处理器集群（TPC）、144组流式多处理单元（SM）组成，每个SM由128个FP32 CUDA核心组成，共计18432个。

显存支持6颗HBM3或者HBM2e，控制器12组512-bit的，总计尾款5144-bit。

576个第四代Tensor张量核心，60MB二级缓存。

支持PCIe 5.0、NVLink第四代（带宽900GB/s），比PCIe 5.0高7倍。整卡对外总带宽4.9TB/s。

性能方面，FP64/FP32 60TFlops（每秒60万亿次），FP16 2000TFlops，TF32 1000TFlops，都比上一代的A100提升3倍。FP8 4000TFlops，比A100提升6倍。

H100计算卡

H100计算卡采用非满血版GH100核心，8组GPC不变，TPC只开启66组，SM单元也削减到132组，共计16896个CUDA核心、528个Tensor核心和50MB二级缓存。

显存用了5颗，好在是HBM3的，容量80GB，位宽5120-bit，总带宽3TB/s。

采用SXM5、PCIe 5.0两种形态，后者功耗达到了700W，相比A100多了整整300W。

DGX H100系统

DGX H100系统集成八颗H100芯片、搭配两颗PCIe 5.0 CPU处理器(Intel Sapphire Rapids四代可扩展至器)，拥有总计6400亿个晶体管、640GB HBM3显存、24TB/s显存带宽。

AI算力 32PFlops(每秒3.2亿亿次)，浮点算力FP64 480TFlops，FP16 1.6PFlops(每秒1.6千万亿次)，FP8 3.2PFlops(每秒3.2千亿次)，分别是上代DGX A100的3倍、3倍、6倍，而且新增支持网络内计算，性能3.6TFlops。

同时配备Connect TX-7网络互连芯片，台积电7nm工艺，800亿个晶体管，400G GPUDirect吞吐量，400G加密加速，4.05亿/秒信息率。

DGX H100是最小的计算单元，为了扩展，这一次NVIDIA还设计了全新的VNLink Swtich互连系统，可以连接最多32个节点，也就是256颗H100芯片，称之为“DGX POD”。

DGX H100系统还包括20.5TB HBM3内存，总带宽768TB/s，AI性能高达1EFlops(100亿亿亿次每秒)，实现百亿亿次计算。

系统合作伙伴包括Atos、思科、戴尔、富士通、技嘉、新华三、慧与、浪潮、联想、宁畅、超威。云服务合作伙伴包括阿里云、亚马逊云、百度云、Google云、微软Azure、甲骨文云、腾讯云。

Grace CPU处理器

Grace CPU基于ARMv9架构设计，拥有72个核心，集成198MB缓存，搭配LPDDR5X内存，支持ECC。

Grace CPU Superchip

Grace CPU Superchip是指将两颗Grace CPU通过NVLink C2C技术连接起来，整合到一张卡上，实现单卡144个核心、396MB缓存和1TB/s LPDDR5X ECC内存，功耗可达500W。

这颗芯片SPECint 2017得分为740分，堪称无敌。

Grace CPU Superchip芯片会在2023年上市。

NVLink C2C技术

NVLink C2C技术是NVIDIA推出的支持多种裸芯互联的技术，包括CPU、GPU、DPU、NIC及SoC等。

苹果在M1 Ultra上率先用了CPU互联的方案，将两颗M1 Max连接到一起，芯片之间的连接带宽达到了800GB/s，着实让我们震惊了一把。

英伟达的NVLink C2C技术比之更强，带宽达到了900GB/s。相比于刚刚发布不久的PCIe 5.0来说速度更快，能效更是其25倍，面积效率更是其90倍。

NVLinkC2C技术还支持ARM的ARBA集线器接口协议，NVIDIA现在跟ARM一起合作以增强AMBA协议，以便支持与其他互连芯片一致且安全的加速器连接。

Grace Hopper加速计算系统

Grace Hopper加速计算系简单来说就是Grace CPU和采用新一代Hopper H100 GPU核心通过NVLink C2C技术放到一张卡上。二者结合可以让该系统在HPC和AI计算的时候协调分配不同负载，让效率最大化。

有了Grace Hopper及Grace CPU Superchip，NVIDIA可以灵活搭配各种方案，就像是搭积木那样简单。

H100 CNX

同时集成H100 GPU、CX-7 SmartNIC网络芯片。让GPU直连网络消除系统带宽，支持PCIe 5.0，最高支持7个多GPU并发。

点评

这届GTC给我们的惊喜太多了，强大的GH100 GPU核心、Grace CPU核心以及通过不同搭配方式衍生出的各类产品。而在我看来，NVLink C2C技术的推出一点不输两大核心。它将不同核心、芯片紧密地连接到一起，以不同的组合实现不同的功能。

玩酷网

一文看懂GTC英伟达都发了什么这次老黄没练刀法改玩积木

锚思科技网