【锚思科技讯】北京时间22日晚上开始的GTC 2022开发者大会上,老黄带来了新一代架构和核心,这次是面向HPC高性能计算、AI人工智能的“Hopper”,核心编号GH100。与之同时发布的还有基于新核心的加速计算卡H100、AI计算系统DGX H100、Grace CPU处理器、Grace Hopper加速计算系统、Grace CPU Superchip等。
GH100核心
此前传闻GH100核心将采用台积电的5nm工艺,因为上一代核心用的是7nm工艺。没想到NVIDIA直接跳过5nm,采用定制版台积电最先进的4nm工艺。CoWoS 2.5D晶圆级封装,单芯设计,集成800亿个晶体管。
完整版GH100核心由8组图形处理集群(GPC)、72组纹理处理器集群(TPC)、144组流式多处理单元(SM)组成,每个SM由128个FP32 CUDA核心组成,共计18432个。
显存支持6颗HBM3或者HBM2e,控制器12组512-bit的,总计尾款5144-bit。
576个第四代Tensor张量核心,60MB二级缓存。
支持PCIe 5.0、NVLink第四代(带宽900GB/s),比PCIe 5.0高7倍。整卡对外总带宽4.9TB/s。
性能方面,FP64/FP32 60TFlops(每秒60万亿次),FP16 2000TFlops,TF32 1000TFlops,都比上一代的A100提升3倍。FP8 4000TFlops,比A100提升6倍。
H100计算卡
H100计算卡采用非满血版GH100核心,8组GPC不变,TPC只开启66组,SM单元也削减到132组,共计16896个CUDA核心、528个Tensor核心和50MB二级缓存。
显存用了5颗,好在是HBM3的,容量80GB,位宽5120-bit,总带宽3TB/s。
采用SXM5、PCIe 5.0两种形态,后者功耗达到了700W,相比A100多了整整300W。
DGX H100系统
DGX H100系统集成八颗H100芯片、搭配两颗PCIe 5.0 CPU处理器(Intel Sapphire Rapids四代可扩展至器),拥有总计6400亿个晶体管、640GB HBM3显存、24TB/s显存带宽。
AI算力 32PFlops(每秒3.2亿亿次),浮点算力FP64 480TFlops,FP16 1.6PFlops(每秒1.6千万亿次),FP8 3.2PFlops(每秒3.2千亿次),分别是上代DGX A100的3倍、3倍、6倍,而且新增支持网络内计算,性能3.6TFlops。
同时配备Connect TX-7网络互连芯片,台积电7nm工艺,800亿个晶体管,400G GPUDirect吞吐量,400G加密加速,4.05亿/秒信息率。
DGX H100是最小的计算单元,为了扩展,这一次NVIDIA还设计了全新的VNLink Swtich互连系统,可以连接最多32个节点,也就是256颗H100芯片,称之为“DGX POD”。
DGX H100系统还包括20.5TB HBM3内存,总带宽768TB/s,AI性能高达1EFlops(100亿亿亿次每秒),实现百亿亿次计算。
系统合作伙伴包括Atos、思科、戴尔、富士通、技嘉、新华三、慧与、浪潮、联想、宁畅、超威。云服务合作伙伴包括阿里云、亚马逊云、百度云、Google云、微软Azure、甲骨文云、腾讯云。
Grace CPU处理器
Grace CPU基于ARMv9架构设计,拥有72个核心,集成198MB缓存,搭配LPDDR5X内存,支持ECC。
Grace CPU Superchip
Grace CPU Superchip是指将两颗Grace CPU通过NVLink C2C技术连接起来,整合到一张卡上,实现单卡144个核心、396MB缓存和1TB/s LPDDR5X ECC内存,功耗可达500W。
这颗芯片SPECint 2017得分为740分,堪称无敌。
Grace CPU Superchip芯片会在2023年上市。
NVLink C2C技术
NVLink C2C技术是NVIDIA推出的支持多种裸芯互联的技术,包括CPU、GPU、DPU、NIC及SoC等。
苹果在M1 Ultra上率先用了CPU互联的方案,将两颗M1 Max连接到一起,芯片之间的连接带宽达到了800GB/s,着实让我们震惊了一把。
英伟达的NVLink C2C技术比之更强,带宽达到了900GB/s。相比于刚刚发布不久的PCIe 5.0来说速度更快,能效更是其25倍,面积效率更是其90倍。
NVLinkC2C技术还支持ARM的ARBA集线器接口协议,NVIDIA现在跟ARM一起合作以增强AMBA协议,以便支持与其他互连芯片一致且安全的加速器连接。
Grace Hopper加速计算系统
Grace Hopper加速计算系简单来说就是Grace CPU和采用新一代Hopper H100 GPU核心通过NVLink C2C技术放到一张卡上。二者结合可以让该系统在HPC和AI计算的时候协调分配不同负载,让效率最大化。
有了Grace Hopper及Grace CPU Superchip,NVIDIA可以灵活搭配各种方案,就像是搭积木那样简单。
H100 CNX
同时集成H100 GPU、CX-7 SmartNIC网络芯片。让GPU直连网络消除系统带宽,支持PCIe 5.0,最高支持7个多GPU并发。
点评
这届GTC给我们的惊喜太多了,强大的GH100 GPU核心、Grace CPU核心以及通过不同搭配方式衍生出的各类产品。而在我看来,NVLink C2C技术的推出一点不输两大核心。它将不同核心、芯片紧密地连接到一起,以不同的组合实现不同的功能。