在刚刚过去的CES上,NVIDIA发布了最新的RTX 50系列显卡。对于当下的游戏市场来说,NVIDIA主要显卡产品的迭代,已经是不亚于任软索三家发布新主机的重大技术节点, 具备了塑形下一代游戏技术演进的影响力。
不过50系列显卡发布后,也有不少玩家对官方给出的纸面数据感到不满。主要是因为这次传统光栅性能的提升不多,相比前代只有30%左右的进步——考虑到5090的价格相对4090也提升了这么多幅度,单位价格内的光栅性能近乎不变。
从这个情况也可以看出来,很多人还是比较在意 “传统图形性能”提升的。何况现在网上还有种 “原教旨游戏画面”的观念,指的是部分玩家对游戏图像有一种心理洁癖,抵触帧生成乃至DLSS等一切AI参与的图像技术,认为只有传统光栅计算渲染出来的游戏画面才是“原生画面”,AI计算出来的画面则意味着失真,带有欺骗性,性能绝对值存疑。
也因此,对于50全系列全靠DLSS 4 的“多帧生成”来实现帧数的大幅增长,玩家形象地送了一个“拼好帧”的外号——DLSS 4 的最大卖点就是“3帧拼1帧”。即便是拥有32GB显存的RTX 5090,如果不开DLSS,面对光追特效全开+4K分辨率的《赛博朋克2077》也只能跑不到30帧,开启DLSS 4 帧生成之后则轻松超过两百帧。要知道,有不少人以为买了最新的旗舰卡就可以跑原生的4K光追游戏,没想到还是得开DLSS才能畅玩,因此被形容为“住在别墅里吃拼好饭”。
但历史证明,“欺骗”历来是图形技术迭代的主旋律。就拿在3D游戏图像发展中居功至伟的法线贴图来说,本质上也是一种用2D贴图产生3D深度的视觉欺骗技术,得益于此,现代3D游戏得以用更少的多边形展现更好的画面,从而节省硬件资源——如果那个时候也有图像原教旨主义者,大概也会认为让GPU老老实实渲染每一个多边形和材质贴图才是“原生画面”,实际上这通常只意味着烂优化。
法线贴图将大量多边形简化为一个多边形,同时实现近似的3d观感
而伴随着50系列的发布,隐藏在NVIDIA显卡产品线下的AI版图,也逐渐露出更为完整的身形。相比帧数等简单的量化指标,这是我在CES现场更关注的地方——在摩尔定律失效,晶体管工艺逐渐逼近天花板的当下,游戏图像技术下一步的技术演进方向,正在很多AI技术的探索下,变得逐渐明晰。
大抵来说,NVIDIA这次宣传的AI技术有两大类,大致可以概括成“能看见的AI”和“看不见的AI”。
所谓的“能看见的AI”,就是更偏向消费端的产品功能,类似ChatGPT。NVIDIA这两年一直试图将AI队友部署到本地大模型上,以解决云端大模型的延迟问题。相比去年简单的“面馆”技术NVIDIA ACE Demo,今年在CES现场,NVIDIA ACE AI队友的本地PC 版本已经可以试运行在《永劫无间》和《绝地求生》这样的商业游戏上。同时《暗影火炬城》的开发商上海钛核 也带来了一个基于本地模型的自定义飞船涂装演示Demo,展现了AI即时生成图像在游戏中的应用。这些内容我们这两天都有报道,这里不再赘述。
显然,这些AI技术都是前台功能,容易被玩家直接感知到。但另一方面,还有很多AI技术应用在了研发幕后中,也就是“看不见的AI技术”,比如DLSS就是此类技术的典型应用,唯有在更强的AI加持下,才可实现多帧合成。与此同时,还有非常多的AI技术在协调作用,才能实现“速度更快+画质更好+性能消耗还不大”这样的不可能三角。
在CES的分享演讲中,NVIDIA的技术专家详细讲解了各种AI图像技术的原理和应用,我在现场听完了全部内容,这里为大家简单做一个梳理。
现场进行技术分享的NVIDIA多位工程师
由于RTX 50系列显卡采用了与旗下专业AI芯片同源的Blackwell架构,使得50系成为世界上首批支持FP4浮点运算精度的消费级GPU。简单来说,FP4 可以在保持视觉质量的同时,减少显 存占用并提高计算效率,这使得更大更复杂的 AI 模型可以在 PC 上运行。与上一代产品相比,AI 推理性能提升 2 倍。
这些改进使得 AI 模型的图像生成性能提升 2 倍,并且可以在本地以更小的显存占用运行。
在这一基础之上,NVIDIA辅以大量的神经渲染技术,其核心机制在于,利用AI模型来生成或增强图像,而不是完全依赖传统的图形渲染管线,使得在较低的硬件开销下实现更高的视觉质量成为可能。
这些技术包括但不限于:
● RTX 神经网络着色器(RTX Neural Shaders):通过在着色器中引入小型 AI 网络,使得复杂的视觉效果可以通过训练好的神经网络来实现。电影级的材质和光照效果通常包含大量的数据,神经网络的训练过程则可以看作是一个特征提取的过程,这个过程实际上降低了数据的维度,带来了数据压缩的效果。
● RTX 神经网络辐射缓存(RTX Neural Radiance Cache):利用神经网络加速光线追踪的间接照明,通过追踪少量光线反弹,推断出更多的反弹效果,提高光追渲染效率。
● RTX Mega Geometry:将场景中的光线追踪三角形数量至多增加 100 倍,从而使游戏角色及其所在环境的真实感获得大幅提升。
● RTX 神经网络面孔 (RTX Neural Faces):使用生成式 AI 实时渲染具有时间稳定性的逼真面孔,只需简单的光栅化面孔和 3D 面部姿态数据作为输入。
● 神经纹理压缩 (NTC): 一种用于材质纹理压缩的新算法,能够提供比标准块压缩高4倍的分辨率,同时减少30%的内存占用。
基本上可以看出,每个和神经网络(Neural)有关的特性,带来的关键词都是“高效”,这些多出来的效率加在一起协同作用,产生了类似“乘区”的效果,也就不难理解为何能实现数倍的性能提升了。
那么AI是如何在更高效的前提下保证画面质量,减少过去的鬼影、撕裂和抖动等问题的?目前外界关于DLSS 4 讲的最多的是多帧生 成与Transformer模型,玩家则对这些技术的效果好奇颇多:为何“大力㵘手“像吃了菠菜一样,能一口气生成3个中间帧,质量还能更好?
其实CES上的NVIDIA技术演讲对此是有解释的,工程师提到了DLSS 4 帧生成技术中的一项关键改进:“AI光流” (AI Optical Flow)。
简单地说,AI光流可以通过人工智能来分析场景中的运动,更准确地生成中间帧,从而解决传统帧生成方法中可能出现的运动模糊、画面撕裂等问题,从升整体的视觉质量和流畅度。
过去,DLSS使用卷积神经网络(CNN)通过分析局部上下文并在连续帧中跟踪这些区域的变化来生成新像素,经过六年的持续改进,已经达到了极限。现在,AI 光流会更智能地分析游戏场景中物体和摄像机的运动。通过 AI 模型,它可以理解画面中哪些部分在移动、方向和速度,从而预测下一帧中物体的位置。与传统的光流算法不同,AI 模型能够学习到更复杂的运动模式,从而进行更精准的运动预测。
这带来了几项好处。首先,基于对场景运动的分析,AI 光流生成的中间帧不是简单的插值或模糊处理,而是根据 AI 模型对运动的理解,真实地模拟物体在时间上的变化,使得游戏画面更加流畅自然。
其次,通过使用 AI 光流,DLSS 4 能够更好地处理快速运动的物体和复杂的场景。传统的帧生成方法在处理这些情况时,容易出现伪影、模糊或抖动。AI 光流则与Transformer 模型协同工作。后者负责生成图像,前者提供运动信息,两者的结合使得生成的帧在内容和运动上更加准确,减少伪影和失真。
最后,配合NVIDIA Reflex降低延迟,游戏图形领域的“好、快、省”这个不可能三角,就这样在50系显卡上实现了。
结语
如果说DLSS 1~3时代这条线索还尚不明细,那么到了DLSS 4,路线已经非常清楚:NVIDIA理想中的游戏显卡生意,是一个软硬件协同的生态系统。正如同在AI硬件市场,NVIDIA的核心竞争力不只体现在硬件上的芯片性能,更体现在软件生态上的CUDA护城河——早年黄仁勋力推CUDA的时候有多不被看好,如今这条护城河就有多深。游戏显卡只是在重走这条演进之路罢了。
而作为玩家,无论你是否接受AI越来越多地参与到你的游戏中,时代的车轮早已向前,无法回撤。如果连RTX 5090都无法在AI缺失的条件下实现流畅的满血光追画面,更遑论AMD和英特尔两家的显卡,那么,大家一起诉诸AI是必然的结果。
更何况,只要能在画质差距不大的前提下实现数倍流畅的画面,追求“原生画面”的人群总归会越来越少。这些AI功能也会逐渐变成通用的图形技术,就像曾经的法线贴图、屏幕空间环境光遮蔽……然后,再被更先进的技术所取代。
新的AI时代已经到来。