《赛博朋克》全高超300帧!RTX5090D显卡超详细测试报告

零镜网 2025-01-24 22:49:32

2025年1月的CES展会上,英伟达RTX 50系列显卡重磅登场,为图形计算领域带来了全新变革。这一系列显卡采用最新的Blackwell架构,具备更强大的AI运算能力、先进的GDDR7显存,以及第五代张量核心和第四代光线追踪引擎等前沿技术。这些升级不仅让RTX 50系列自身实力超群,还通过DLSS多帧生成技术、Reflex 2以及基于Transformer模型的超分辨率、光线重建、DLAA等技术,为RTX 40、30和20系列显卡用户也带来了福利。尤其是DLSS 4,据英伟达测试,开启DLSS 4后,RTX 5090D在部分游戏中的性能是RTX 4090D的两倍,着实令人期待。

经过一段时间的等待,我们终于迎来了RTX 50系列的首测——七彩虹iGame GeForce RTX 5090 D Neptune OC 32GB显卡。熟悉七彩虹iGame系列的玩家都知道,Neptune(水神)系列定位于高端,其在整体设计、用料以及散热等方面的出色表现,一直深受玩家喜爱。今天,我们就借助这款显卡,深入了解RTX 50系列的创新技术,剖析 iGame RTX 5090 D Neptune OC 的精妙设计,并与RTX 4090 进行对比,全方位展示其卓越性能。

Blackwell:让人工智能重塑图形计算

RTX 50 系列的发布会,更像是一场 AI 在图形计算领域的成果盛宴。发布会上,除了介绍硬件规格,大部分内容都围绕 AI 如何重塑图形计算、加速图形处理展开。英伟达公布了Blackwell神经网络渲染架构的关键特性,主要涵盖以下六个核心部分:

l第五代张量核心(Tensor-Core):具备高达4000 AI TOPS的算力,新增对FP4和FP6,以及第二代FP8 Transformer引擎的支持,运算能力实现重大突破。

l第四代光线追踪核心(RT-Core):拥有360 RT TFLOPS的光追算力,基于Mega Geometry技术构建,光线追踪性能显著提升。

lAI管理处理器(AMP):在GPU流水线前端新增了一个RISC-V处理器,负责全局计算的调度与控制,确保系统高效运行。

lBlackwell SM单元:算力达125 TFLOPS,并集成神经网络着色器功能,为图形渲染提供强大助力。

lBlackwell Max-Q:引入三重门控技术,进一步优化能耗与性能平衡。

lGDDR7显存支持:大幅提升显存带宽,最高可达30Gbps,数据传输速度更快。

此外,RTX 50系列在媒体功能方面也有升级,支持DP 2.1 UHBR20、PCIe 5.0,具备4倍NVDEC和NVENC编码解码能力,以及对YUV 4:2:2的支持。而Blackwell架构带来的最大惊喜,无疑是全新的DLSS 4技术。它并非单一技术,而是多种创新技术的融合,代表了Blackwell架构新增技术的最高水准,下面为大家详细解读。

DLSS 4:开启图形渲染新篇章

DLSS 4 是多项先进技术的集合体,包含:

l全新的DLSS多帧生成技术Multi Frame Generation

l增强的DLSS帧生成技术Frame Generation

l增强的DLSS光线重建技术Ray Reconstruction

l增强的DLSS超分辨率技术Super Resolution

l增强的DLAA深度学习抗锯齿Deep Learning Anti-Aliasing

l全新的Reflex 2低延迟技术

DLSS 4技术中,针对光线追踪渲染画质优化(降噪)的DLSS光线重构技术、DLSS超分辨率技术以及DLAA抗锯齿技术都是下放到RTX 20系、30系和40系的,只有DLSS多帧生成技术是RTX 50系独占。

1.DLSS多帧生成技术

我们先来看DLSS多帧生成技术,它的两大亮点在于“多帧”和“生成”。与以往DLSS 3每次仅生成1帧不同,DLSS 4每次能生成2-3帧,通过AI模型结合前一帧数据和用户操作预测运动方向,从而“生成”新帧,并非传统的“插帧”方式,也不依赖后帧数据。

英伟达宣称,DLSS 4相比DLSS 3的帧生成速度提升了40%,显存占用减少30%,并且能直接利用AI模型快速生成光流场。在理想情况下,DLSS 4生成的像素中,GPU真实渲染仅占1/16,剩下15/16都由AI完成。

由于AI在GPU流水线中几乎是同时完成的多帧生成,因此需要对这些帧进行排序,分清哪帧在前、哪帧在后,它们间隔时间是多少,否则一股脑输出给显示器会出现显示错乱,游戏画面会很跳。为此,Blackwell GPU集成了一个新的Flip Metering引擎,取代原本由Windows控制的显示帧输出功能,对输出帧进行重新排序。

DLSS 4不仅画质比DLSS 2和DLSS 3更出色,而且帧率大幅度上升,延迟持续降低,整体效果更为出色。我们后续的测试证实了这点。

DLSS 4在游戏适配方面也进展顺利,首发便有75款游戏支持。而且,从DLSS 3迁移到DLSS 4的过程非常简便,对于支持DLSS 3帧生成技术的游戏,几乎可以无缝升级。

用户可通过英伟达新的GPU管理软件NVIDA APP开启游戏的DLSS 4支持,在DLSS Override选项中,可以选择帧生成的数量,4x即是生成3帧。

2.升级Transformer模型

除了DLSS多帧生成技术以外,DLSS 4中的其余的几项技术,帧生成、光线重建、超分辨率、DLAA等AI模型,也都从之前的CNN模型升级为目前流行的Transformer模型,带来了整体画质和效率的显著提升。

Transformer模型的优势是在处理序列和结构化数据时表现优异,能够更精准地识别像素,理解长距离像素间的关系。英伟达的资料显示,新模型参数量是旧模型的2倍,对计算量的需求提升4倍。

以DLSS光线重建技术为例,新的AI模型能更精准地还原复杂场景细节,同时降低噪点和伪影。注意看风扇的扇叶,原有的CNN模型模糊有鬼影,新的Transformer非常稳定和清晰。

DLAA技术的抗锯齿效果也得到显著提升,画面边缘更平滑,时间稳定性和动态细节表现更佳。值得一提的是,DLSS 4中除多帧生成技术仅 RTX 50 系列可用外,其他技术在 RTX 40、30 和 20 系列显卡上也能通过升级体验,为老用户带来了性能和画质的双重提升。

3.Reflex 2带来极低游戏延迟

在DLSS 3技术应用时,画面延迟问题就备受玩家关注,尤其是在对延迟敏感的FPS游戏中,高延迟会严重影响游戏体验。英伟达推出的Reflex技术,通过优化指令传输路径,让输入指令直接进入GPU渲染,有效降低了延迟。然而,仍有部分延迟难以彻底消除。

在RTX 50系显卡发布会上,英伟达带来了全新的Reflex 2技术。Reflex 2技术的巧妙之处在于,当GPU刚渲染好一张画面准备输出时(当然这帧画面也可能不是渲染的,是AI帧生成的),CPU已经根据最新的鼠标输入计算出了下一帧画面的位置,此时如果把渲染好的图移到待渲染图的位置,不就相当于没有延迟了吗?不得不说,英伟达的工程师是个天才。

不过这样移动画面会有一个问题,那就是画面和物体边缘会出现白边,所以需要借用前一帧画面的深度数据和色彩数据把边补上(Inpainting)。这个实现不难,因为游戏帧率是很快的,帧与帧之间的差异其实很小,补个边对AI来说太容易了。

英伟达数据显示,在开启Reflex技术后,系统延迟从56ms降低至27ms,而开启Reflex 2技术后,延迟更是低至14ms,是历史新低。

核心架构大升级:全新SM、张量和光追单元

要想实现DLSS 4技术,除了AI模型升级之外,离不开硬件架构的支持。Blackwell架构在设计之初,就设定了一个多边形的设计目标,比如SM单元该如何设计、张量核心和光线追踪核心AI算力要预留多少,缓存大小,能耗比控制等等。

这是Blackwell完整的架构图。 包含12个图形处理集群(GPC),每个GPC集群包含8个(共96个)纹理处理集群(TPC),每个TPC集群又包含2个(共192个)流处理器(SM),以及16个32bit的内存控制器接口。

SM单元是GPU最主要的计算单元,在GPU的并行处理能力方面发挥着关键作用。它里面包含了多种计算单元,例如最主要的CUDA核心、张量核心、光线追踪核心,线程调度器、缓存、以及内存控制器等。

完整的Blackwell GPU包含192个SM流处理器,每个SM包含128个CUDA核心、1个第四代光线追踪核心、4个第五代张量核心、4个纹理单元、一个256KB的寄存器文件以及128KB的一级缓存。

之前GPU的SM单元,浮点和整数计算单元是分开的,Blackwell GPU则具备更强的灵活性,可根据任务需求选择执行FP32或INT32计算。这使得INT32算力上限大幅提升,对于一些对INT计算需求较大的应用,在Blackwell架构上能获得更出色的性能表现。

另外,Blackwell架构还加入了对神经网络着色器(Neural Shader)的支持。Shader(中文翻译为着色器),指的是一种运行在GPU上的小程序。通过Shader,我们可以自定义显卡渲染画面的算法,使画面达到我们想要的效果。而Neural Shader,就是把一个小型的神经网络(AI人工智能),引入到可编程的着色器中,让开发人员可以在游戏开发的过程中,将AI应用纳入到游戏开发的过程当中,从而实现传统渲染方式无法达到的渲染效果。

关于神经网络着色器(Neural Shader)这个部分,英伟达一共公布了5项相关技术。

RTX Neural Texture Compression(RTX神经网络纹理压缩)

RTX Neural Materials(RTX神经网络材质)

RTX Neural Radiance Cache(RTX神经网络辐射缓存)

RTX Skin(RTX皮肤)

RTX Neural Faces(RTX神经网络表面)

神经网络纹理压缩,顾名思义就是利用AI来对纹理进行压缩。相比传统的纹理压缩方式,Blackwell架构带来的AI压缩算法能在保证画质不变的前提下,将显存占用量缩小6.5倍!开发者也不必再担心显存溢出的问题,可以使用更高精度的纹理,将游戏画质推向电影级。

材质是对物体表面属性的综合描述,它不仅包括纹理信息,还定义了物体的光学属性、物理属性以及其他渲染相关的特性。像宝石、丝绸这类难描述的材质,传统方式会用到多重材质去叠加,效率极低。RTX神经网络材质,利用AI来对复杂的着色器代码进行简化,效果更好,效率提升3-5倍。

神经网络辐射缓存,就是把光线追踪计算结果缓存起来,在光线经历最初的一两次反射后,利用AI预测出后续的反射结果。同时,对于没有变化的场景,直接调用之前的计算结果,大大节省算力开销,以应对超复杂场景的光线追踪计算。

英伟达借鉴了电影渲染技术中的“次表面散射”技术,将其引入到实时光线追踪领域,实现了针对半透明表皮材质的实时光线追踪效果。这是英伟达展示的《Half-Life 2》中的猎头蟹的表皮渲染对比,左边是传统算法,右边是RTX Skin加持后的效果。

Neural Faces的原理其实很简单,先根据人脸在不同光线、情绪和遮挡条件下的数千张照片(可以是真实人脸),训练出一个AI模型来。然后在游戏中,生成一个光栅化的简易人脸,再根据3D姿势数据进行AI“换脸”。这项技术现在已经非常普及了,只是应用到游戏领域还是首次。

要实现以上的AI技术,光靠SM不行,所以Blackwell GPU引入了第五代张量核心。新增了对FP4、FP6的支持,以及第二代FP8 Transformer模型的支持。其中前者主要是结合英伟达的TensorRT-LLM以及NeMo框架相关内容以及共享缩放系数等方法,实现了整体模型的缩放以及高效率的计算。比如,传统模式运行的FLUX.dev模型,需要23GB显存,但是经过优化后,FP4精度下只需要不到10GB显存即可。速度上面,FLUX.dev运行在RTX 4090上15秒、30步可以生成图像,但是在FP4搭配RTX 5090只需5秒即可生成图像。

Blackwell的光线追踪单元同样取得了革命性进展。第四代光线追踪单元集成了包围盒相交引擎、不透明微图检测、三角形簇相交引擎、三角形簇压缩引擎以及线性球体扫描五大功能。其中,包围盒相交功能用于BVH计算,不透明微图检测,提升了半透明材质的计算精度。

三角形簇相交引擎和三角形簇压缩引擎与Mega Geometry功能协同工作,通过对光线追踪所需三角形进行分类和分级处理,大幅减少了重新计算的数据量,显著提升了光线追踪计算效率。线性球体扫描技术则优化了毛发等物体的光线追踪效果。

值得一提的是,所有支持光线追踪的RTX GPU都可通过更新获得Mega Geometry功能,但只有Blackwell的第四代光线追踪单元凭借专用硬件模块,能实现最高效的计算和最优质的性能表现。

除上述核心组件升级外,Blackwell 架构还进行了多项优化。例如,AMP 通过定制的 RISC-V 处理器,实现对全局RT核心、CUDA核心和张量核心的智能调度,与DLSS 4多帧生成技术紧密配合;SER 2技术对光线追踪计算中的动画、材质、光照等元素进行统一排序,提升整体效率;编解码模块更新,支持YUV 4:2:2格式,带来更出色的编解码质量。不过,这些功能对于普通玩家来说相对专业,本文暂不做详细展开。接下来,让我们深入了解七彩虹RTX 5090 D水神显卡的魅力。

iGame RTX 5090 D水神性能测试

我们的配置如下:

显卡:七彩虹iGame GeForce RTX 5090 D Neptune OC 32GB

对比显卡:七彩虹iGame GeForce RTX 4090 Vulcan

处理器:AMD锐龙7 9800X3D

主板:技嘉X870E超级雕

内存:金士顿FURY叛逆者RGB 48GB*2 6000MT/s

电源:鑫谷昆仑九重KE-1300P全数字电源1300W

显卡电源接线:鑫谷12V-2X6高可靠显卡供电连接器

本次测试的是七彩虹旗下的高端品牌iGame RTX 5090 D水神版。

显卡外壳由铝合金包覆,相比上代水神显卡,这代水神明显变大了一圈。然后上代水神是2条平行的像水波纹一样的装饰线条,线条点亮后有RGB的光效,而这代水神做成了3个高度不同的面,形成一个自然的阶梯分布,RGB灯条则隐藏在面与面交汇的凹槽中,形成反射式光源,光效更柔和、更高级。

外壳采用全铝合金加阳极氧化工艺,质感上挑不出毛病,非常显档次。相比较而言,这代水神整体要更白一些,装在白色机箱里更协调。

另外,水冷的出水口发生了变化,上代水神是上端出水,接口处能看到明显的风扇和灯光走线。而这代水神改为右侧出水,出水口已经看不到走线了,整体感更好,安装也更方便。此外,这代水神的上方增加一个半透明的灯条装饰,一直延申到显卡的侧面,点亮后非常漂亮。

显卡背部,金属质感依旧明显,简单的蓝色iGame与Neptune字体加上线条的点缀给人一种高级感。突出的iGame家族的LOGO尽显高端。

依旧采用360冷排设计,还有一个专有的名字“冰晶散热装置”,侧面的蓝色线条彰显主题。这次的风扇经过全新的升级,从上一代的串联连接方式改为类积木连接,风扇两侧均有磁吸连接触电,连接以后旋转风扇通过卡扣固定,风扇上面看不到一根额外的线材,显得高级的同时美感十足,极大简化了装机流程。

显卡整体的光效可通过七彩虹iGame Center控制,无需再外接ARGB控制线材。也可通过外接ARGB线材使用第三方软件控制。

说完了外观,再来看看散热器的内部结构,这是七彩虹官方给出的iGame RTX 5090 D Neptune OC 32GB显卡水泵拆解图。除了保留了亚特兰蒂斯控温技术之外,还使用了全覆盖大尺寸铜底直触GPU核心的设计,能高效转递GPU所发出的巨大热量。

显卡接口方面,iGame RTX 5090 D Neptune OC 32GB相较于普遍的3个DP 2.1a加1个HDMI 2.1接口配置多加了1个HDMI 2.1接口。此外还附带了一个超频按键,能够通过切换不同的BIOS来实现显卡频率的提升,提升之后显卡功耗可以达到最高600W。

考虑到显卡惊人的600W额定功耗,以及超过1000W的瞬时功耗,此次我们还特意采用了1300W的鑫谷昆仑九重KE-1300P电源。它采用数字架构,有DSP和MCU双芯。支持5项数字检测、故障码报错和风扇智能调速,并通过80Plus白金认证。

鑫谷此次还专门针对RTX 5090D供电部分的线路进行强化,推出了专门的12V-2X6自主均流线。采用线材与铜壁一体压铸,在靠端子6cm和8cm位置把线材并联到一起,缩短导电回路,热阻更小,实现电流自均衡。

特别感谢金士顿提供FURY叛逆者DDR5 RGB 64GB*2 6000MT/s低延迟内存进行测试。以下是5090 D显卡的测试报告。

DLSS 4大发神威,帧率提升夸张至极!

先来看DLSS 4相关的测试成绩。英伟达在发布会上宣布当显卡正式上市的时候,大概有75个游戏支持DLSS 4,由于测试时尚未解禁,我们得到了其中的3个,包括《赛博朋克2077》和《霍格沃茨之遗》两个3A大作,以及一个网络游戏《漫威争锋》。其中前两个3A游戏都是在游戏自己的设置菜单中进行DLSS 4开启的,网游《漫威争锋》则是利用NVIDIA APP开启。

《赛博朋克2077》在更新至最新版本后,游戏内部多了一些选项。比如“DLSS超级分辨率预设方案”中,可以选择卷积神经网络或者Transformer模型。下方的“多帧生成”,可以选择2X、3X、4X的不同方案,我们也分别进行了测试。其他所有光线追踪相关、画质相关的选项全部设置为最高。

不开启DLSS的时候,帧率为110.36。开启DLSS 3+帧生成后,帧率为152.85帧。DLSS 4选择第一个帧生成的效果,帧率为166.72帧。推测应该来自于DLSS 4整体基座引擎更新至Transformer带来的效率提升。DLSS 4开启第二个帧生成选项后,帧率上升到了237.24帧。推测应该是对应的多帧生成的3x模式,也就是生成2帧画面。最后是DLSS 4开启第三个帧生成选项后,帧率进一步提升到了301.37帧,大概是不开启前3倍差一点的水平。

这是我们第一次看到在4K分辨率、全高特效、全景光追等效果下的300FPS的《赛博朋克2077》!要知道这个游戏在RTX 20出现的时候,绝大部分显卡是卡成幻灯片的。即使是RTX 2080、RTX 3090在DLSS 2下也不太可能4K分辨率稳定流畅运行,现在在RTX 5090搭配DLSS 4竟然跑到了300FPS,最低帧都有276FPS,简直把一个3A光追大作跑成了高帧率FPS游戏!

画质方面,我们认真对比了DLSS 4和DLSS 3的画面效果,甚至发现在Benchmark的一些铁丝网、树叶边缘,DLSS 4效果要好于DLSS 3,一些错误的抖动和伪影都消失了。

之前的DLSS 3画质虽然整体不错,但是一些小细节还是存在一定差异的,这一次DLSS 4在这些细节上的升级,让整体画质变得更完美了。

接下来,我们再来利用FrameView简单考察一下DLSS 4开启后的延迟值情况。

未开启任何DLSS辅助技术的时候,截图的延迟值是41.27ms,这个延迟值比较稳定,大概在45ms~40ms之间飘动。

在开启了DLSS 4多帧生成后,延迟大幅度降低至24~28ms。

看到这300多的帧率,还有26ms的延迟,你想说什么呢?从技术原理上来说,DLSS 4的多帧生成虽然是“预测”的未来帧,可能存在偏差和极高的延迟,但是英伟达巧妙地用Reflex 2技术给“纠正”回来了,这就是DLSS 4技术的高明之处。其他家想模仿这个技术还真不好仿,一是GPU的AI算力要很高,二是要增加很多硬件,比如Flip Metering、AMP等。DLSS 4是一个将Blackwell架构软件和硬件充分结合起来的AI技术,包括下放到RTX 40系显卡上都无法实现。

接下来是第二款游戏《霍格沃茨之遗》,这款游戏也是在游戏设置选项中选择。

因为有了之前《赛博朋克2077》的经验,直接选择X4选项即可。

之前在相同场景下,开启DLSS 3和帧生成,其他特效全部最高的时候,帧率为242帧。

开启DLSS 4的4x模式,帧率大幅度提升到了353帧,令人咋舌!而且这款游戏画质对比来看,DLSS 4的画面效果和DLSS 3别无二致, DLSS 4远处的纹理清晰度会更好一些。

第三款游戏是《漫威争锋》,这款游戏可以在NVIDIA APP中直接以覆盖的方式开启DLSS 4,我们选择单独设置DLSS技术、开启4x。

在只开启DLSS 3搭配帧生成的时候,整体帧率为265帧。

开启DLSS 4的4X帧生成后,帧率来到了492帧,接近500帧大关,几乎翻倍!

在DLSS 4技术带来如此高帧率后,游戏行业可能发生很大的变化,目前一些游戏受制于性能无法在光线追踪等创新技术的使用上更进一步,如果未来大量游戏都在DLSS 4的加持下跑到了200~300帧,那么是不是意味着游戏画质的上升空间又被打开了?再结合Blackwell发布会上带来了神经网络着色器等一系列技术,英伟达这一步利用AI来整体提升画质、提升游戏表现的“大棋局”呼之欲出啊!在这里,我们只能说,DLSS 4,牛X!

光栅性能、AI性能平均提升30%

当然,我们也有必要测试一下传统光栅类游戏,毕竟还有很多游戏尚未支持实时光线追踪渲染和DLSS 4技术。由于测试项目众多,我们直接放上表格数据。

整体来看,在传统项目中,RTX 5090 D相比RTX 4090的提升在大约30%左右,这也符合Blackwell对比Ada Lovelace的晶体管数量或者芯片面积提升。此外,我们还发现了几个特别值得注意的点:

首先,RTX 5090 D的光线追踪性能更强了。在纯粹DX11光栅化的Fire Strike测试中,RTX 5090 D胜出RTX 4090大约1.2倍左右,但是压力越大胜出幅度越高。在强光线追踪的Port Royal、Speed Way测试中,RTX 5090 D胜出幅度甚至拉大到了40%以上,这足以证明Blackwell在光线追踪的性能上大幅度改进。

第二,AI相关测试RTX 5090 D相对RTX 4090提升大约26%。这样的提升幅度和整体Blackwell在张量核心方面的改进其实是不匹配的。究其原因,主要还是测试软件暂时还没办法支持Blackwell的全新一代张量核心,只能依靠传统方式进行计算。

第三,光栅化游戏方面,RTX 5090 D对比RTX 4090的优势大约在32%,光线追踪+DLSS 3的游戏则胜出大约在27%。表面上看起来RTX 5090 D的胜出幅度不大,但是要知道这些DLSS 3游戏还在使用老的模型也就是CNN模型,当Transformer模型更新后,RTX 5090 D还会迎来更大的胜出幅度。至于网游方面,25%的提升也是很合理的。

烤机测试:温度太低了

在测试的最后,我们依旧按照惯例对iGame RTX 5090 D Neptune OC进行了烤机测试。测试中利用Furmark进行拷机,可以看到,iGame RTX 5090 D Neptune OC的默认功率为575W,OC功耗为601W。但由于是水冷散热,GPU温度仅为56.3度!完全不存在任何一丢丢过热的风险。此时GPU风扇转速也仅为68%,大概1600转左右,完全不吵闹。可见水冷散热确实是非常好的GPU散热解决方案。如果你特别在意机箱整体的静音和散热,千万不要错过了这款七彩虹iGame RTX 5090 D Neptune OC显卡。

iGame RTX 5090 D Neptune OC:极致性能,独孤求败

在本次全面的测试中,RTX 5090 D相较于前代RTX 4090,在AI图形渲染领域实现了跨越式的突破。特别是DLSS 4的多帧生成技术,为游戏性能带来了前所未有的3倍提升,这充分展现了AI技术在图形计算领域的强大赋能作用。尽管RTX 50系列显卡在发布初期,其部分技术尤其是AI相关功能支持的游戏和软件还比较少,但这并不影响其展现出巨大潜力。

还有就是七彩虹iGame RTX 5090 D Neptune OC这款显卡,开始当我们得知它的功耗会到惊人的600W时,着实担心其散热和温度控制,结果没想到满载温度60度不到。可见其在散热设计、做工用料方面都是极高的水准。作为一款面向高端用户的顶级显卡,iGame RTX 5090 D Nepetune OC无疑是追求极致游戏体验玩家和创作者的理想之选。

0 阅读:263
评论列表

零镜网

简介:科技和谈资兼顾,热点与深度并重