在CES 2025的发布会上,NVIDIA正式推出了采用Blackwell架构的新一代RTX 50系列GPU,而在1月15日,NVIDIA又举办了一次技术沟通会,对Blackwell架构以及诸多AI渲染技术进行了详细的介绍,并在现场提供了包括RTX神经网络渲染、Mega Geometry、DLSS 4、3D引导生成式AI和《永劫无间手游》PC版AI队友、《动物朋克》AI NPC的互动DEMO体验。我们有幸参加了这次技术沟通会,在这里也和大家分享一下。
Blackwell架构解析:为AI渲染而生
RTX Blackwell架构设计的目标:为新的神经网络渲染进行优化;减少显存占用;为服务功能提供新的质量;高能效。可以说,RTX Blackwell架构的诞生,代表GPU的发展开始摆脱摩尔定律的限制,同时也宣告光栅化渲染时代进化到AI渲染时代。
NVIDIA GeForce Blackwell神经网络渲染架构拥有第五代Tensor Core和第四代RT Core,RTX算力高达360 TFLOPS,为全新的Mega Geometry提供强大的性能支持;搭载AI管理处理器,在AI计算与图形渲染之间智能分配算力,实现最佳平衡;全新设计的Blackwell SM单元,为新的神经网络着色器提供高达125 TFLOPS的强大算力;NVIDIA Blackwell架构下的Max-Q技术,带来两倍的高能效;首次搭载GDDR7显存,提供高达30Gbps传输速率。
Blackwell的SM单元经过了全新的设计,整个架构完全为新的神经网络渲染而打造。从图中可以看到,和上代针对常规渲染设计的Ada SM相比,Blackwell SM将支持INT32的着色器单元数量增加了一倍(INT32/FP32着色器单元总数不变), 同时将着色器执行排序的效率提升到上代的两倍(对常规渲染和神经网络渲染的代码进行排序)。
Blackwell是第一款搭载GDDR7显存的GPU,相对GDDR6显存来讲,GDDR7提供了两倍的数据传输速率,同时由于GDDR7使用了PAM3的模式,拥有比GDDR6X PAM4模式更低的工作电压,所以不但速率更高,功耗也更低,相对GDDR6更是提升了一倍的能效。
Blackwell架构的一项重大技术升级就是支持Mega Geometry,可将场景中的光线追踪三角形数量至多增加 100 倍,从而可以在游戏或者3D应用中提供超高的几何细节,打造极为逼真的模型。而实现Mega Geometry的硬件基础当然就是Blackwell搭载的第四代RT Core,它相对上代Ada架构的第三代RT Core增加了三角形集群交汇引擎、三角形集群解压缩引擎与线性图形扫描单元(专用于加速毛发渲染)
从图中可以看到,Blackwell的第四代RT Core相比第一代RT Core提升了7倍的光线三角形交汇率,相对上代RT Core也有一倍的提升。同时,和上代Ada架构相比,Blackwell架构由于支持几何压缩,显存占用率也下降了25%之多。
Blackwell另一大亮点就是其搭载的第五代Tensor Core支持FP4精度的计算,如果和Pascal架构相比,它的算力提升了31倍,相对上代Ada的Tensor Core(FP8),也提升了一倍。为什么要选择FP4模式?按照NVIDIA官方说法,FP4模式在可以满足渲染精度的同时下能够提供更快的渲染速度,综合来看是当下最符合需求的平衡点。