GeForceRTX5080天梯榜首发评测:超猛能耗比造就极致尺寸

超能网 2025-01-29 23:24:27

RTX 5090 D和RTX 5080是同时开售的,不过它们的解禁时间不那么一样。前段时间我们已经评测了RTX 5090 D,今天我们就来看一看次旗舰GeForce RTX 5080。特别值得一提的是,这次RTX 5080是有Founders Edition的——NVIDIA自家的设计向来自成一派,本次RTX 50系更因其符合SFF-Ready(适用于SFF小尺寸)标准的超薄设计而备受关注。讲真,我甚至觉得不少爱好者会直接因为Founders Edition的这个尺寸跳过性能展示部分直接下单了,不过这倒不是不写评测到街上放烟花的理由。因此,接下来就让我们充满好奇心,好好地看一下这张显卡内与外。

规格表

硬件架构解析

这里的架构解析主要是涵盖RTX 50系GPU的硬件方面,如果想要阅读包括神经网络渲染、RTX Mega Geometry等技术的详细架构解析,请阅读RTX 5090 D的评测:《iGame GeForce RTX 5090 D Advanced评测:散热稳压大核心,DLSS 4登峰造极》

Blackwell GB203核心:RTX 5080出场即满血

和上一代序列一样,轮到RTX 5080的就是GB203核心了。完整的GB203核心共拥有456亿晶体管。前面在RTX 5090 D评测已经说过,在Blackwell这一代上,还是GPC-TPC-SM层级设计。GB203共拥有7 GPC,42 TPC,84 SM,10752个CUDA核心——我想这里你能看出一点差别:怎么TPC是42个?是的,虽然目前我们还没有完整的核心架构图,但是用简单的乘除法就知道,GB203上每组GPC还是和前代一样包含6组TPC。不过有一个好消息是,这次RTX 5080出场即满血,这点跟它的前辈不一样。

在GPC段,可见它包含的TPC从Ada Lovelace的6组扩展到了8组。不过布局上还是一样的,一个独立的光栅引擎,两个ROP分区(每个包含8个ROP单元),而每组TPC包含两组SM。

到达SM段,这里的变化是比较大的。首先,现在所有的32个CUDA核心都能执行FP32/INT32运算了,因此INT32的算力可以说是增加了一倍。不过在一个时钟周期里面,核心只能二选一运算,要不FP32,要不INT32。NVIDIA表示这种设计是为神经网络着色器优化的。Tensor Core和RT Core自然也有升级,不过让我们先说完新的显存。

GDDR7显存:带宽高能耗低

RTX 40系上的GDDR6X是NVIDIA和美光合作打造的,因此你就只能在NVIDIA的产品上看到GDDR6X,而且部件号无一例外全是D8BZC,别无二家了属于是。在RTX 50系列这一代上,NVIDIA是和标准制定者JEDEC固态技术协会合作,推出了全新的GDDR7显存。

NVIDIA表示,GDDR7显存选择了PAM3调制,这能让它在信噪比方面有所提升,通道的密度也增加了。性能方面,GDDR7能带来更高的带宽,同时比GDDR6X/GDDR6要节能得多。

第5代Tensor Core:新增FP4支持

第5代Tensor Core继承了上一代架构的特性,并新增了FP4、FP6的支持,还把FP8 Transformer Engine更新到了第二代。

FP4支持显然是大家比较关心的。NVIDIA对此的解释是,随着生成式AI模型能力的提升,常规的FP16模型对硬件特别是显存的要求与日俱增,在单张显卡上运行这些模型会变得非常困难。而FP4模型需要的显存更小,在TensorRT模型优化器(Model Optimizer)的支持下还能做到几乎没有质量损失,对于整个RTX 50系列来说是很友好的,毕竟不是每张卡都有RTX 5090 D那么大显存。

为什么要强调单张卡也可以运行呢?这其实跟游戏也有关系,在我们之前的报道里说过,NVIDIA一直在捣鼓NVIDIA ACE这个AI NPC技术,再加上别的基于AI的游戏技术也要用到Tensor Core,因此提高模型的运行效率很有必要。

第4代RT Core:为RTX Mega Geometry准备

在第4代RT Core上面我们仍然能见到一些熟悉的组件,比如Box Intersection Engine和Opacity Micromap Engine这两个加速引擎,它们分别针对BVH树遍历和透明物体进行加速。而新增的组件包括Triangle Cluster Intersection Engine和Triangle Cluster Compression Engine,以及Linear Swept Spheres。

AI-Management Processor和着色器执行重排序2.0

AI-Management Process(AMP)在架构图上和GigaThread Engine并列,可见它也是个调度器。AMP的本质是一个位于管线前端的RISC-V处理器,它支持Windows硬件加速GPU计划,能够更自由地管理GPU。

AMP同样跟AI游戏有关。这里举个例子,本地运行LLM的话,它们首次响应的时间一般是比较慢的,这放在知识库聊天机器人里还好,大家可能都习惯了,但是对于游戏来说,这就是另一种情景了:试想一下你打开游戏加载存档,刚想找npc接个任务,结果npc憋了半天才冒出一句“你好”,这确实很破坏游戏体验。

同时运作的话,LLM的响应时间变慢,游戏帧率也会受影响

而在AMP的支持下,CUDA、RT Core和Tensor Core三大部分可以协调工作。如图所示,AMP提高了LLM的优先级,令其更早启动,做到在游戏中及时响应,并同时让游戏引擎、DLSS 4保持稳定的帧率输出。

在Ada Lovelace上的着色器执行重排序(SER)主要是针对光线追踪而设计的。通过对光线追踪任务的动态重排序,该功能可充分提高硬件使用率。而Blackwell上的SER 2.0还可以将神经网络的负载直接发送至Tensor Core处理,加速神经网络渲染。NVIDIA表示,Blackwell上的SER重排序逻辑效率达到了前代的2倍,降低开销之余还能提高精准度。

DLSS 4:多帧生成还有模型升级

我们终于说到DLSS 4了!说实话DLSS 3引入的帧生成功能已经挺让我满意的了,而DLSS 4则是更进一步,带来了多帧生成功能。这个我想应该不用过多解释,就是渲染1帧最高生成3帧。另外,我在最近的Editor's Day上问过NVIDIA关于多帧生成极限的问题,他们表示这AI模型是可以生成更多帧的,但是3帧是一个比较合理的值,因为DLSS 4是多个AI模型一起工作的,所以工程师在设计时不单单要考虑帧生成的问题,再说了,生成3帧带来的提升已经足够强力了。

接下来我们就逐一拆分DLSS 4的各项组件,看看它们有什么更新,又是如何协同工作。

首先是大家都关注的帧生成,NVIDIA Blackwell的帧生成模型比上一代快了40%,同时显存占用降低30%。同时,用于提供光流场信息的不再是RTX 40系列上的光流加速器,而是一个更高效的AI模型。

不过如此一来新的问题就产生了:在Ada Lovelace上,DLSS 3是渲染一帧生成新的一帧,就是帧1,1.1,2,2.1...这种,把控每帧的输出顺序还是比较容易的,因为生成的帧1.1总在渲染的帧1后面,如果来不及输出帧1.1,那就把它丢掉,直接输出帧2就好。而RTX 40系上的DLSS 4是1,1.1,1.2,1.3,2,2.1,2.2,2.3,3...,中间整整隔了生成的3帧,怎么不让输出顺序乱套就是新的问题。为此,Blackwell引入了硬件级Flip Metering(这个名词确实很难描述,直译是翻转测量),这个组件将帧平滑逻辑从CPU转移到GPU的显示引擎上,让GPU更精确地掌控显示每一帧的节奏,降低帧与帧之间的时间波动。开启后NVIDIA表示,Blackwell的显示引擎获得了两倍像素处理能力,这样就可以支持高分辨率、高刷新率下的Flip Metering。

由于DLSS 4多帧生成需要用到第5代Tensor Core的强劲算力去计算光流场和生成多帧,因此这个功能目前是Blackwell独占的。

然后比较让人惊喜的是,超分辨率、光线重建、DLAA也获得了更新,它们的模型从CNN换成了Transformer,一个采用自注意力机制的神经网络,适用于从RTX 20-50的全线RTX GPU。不过我想在这里说明CNN和Transformer两个神经网络有什么区别绝对会喧宾夺主,光是编码器和解码器就够喝一壶的了。因此只需要知道新的模型能够提高画面的稳定性,提升光照细节,给予动态物体更多细节即可。大伙可以在下面的DLSS 4测试中非常直观地看到这两个模型的画面差别。

NVENC和NVDEC新增Y′CbCr 4:2:2支持

目前很多摄像机都支持录制4:2:2格式的视频,这是有原因的:4:2:2相比起4:4:4更节省储存空间,但是比起4:2:0能保存更多的颜色,这样一来就给后期调色留下了充足的空间。Blackwell这次新增了4:2:2的编解码支持,可提高创作者的效率,比如说导出时间减少,更流畅的多路回放等。NVIDIA表示,第6代NVDEC可同步解码和播放多达8个4K60 4:2:2视频流。

而第9代NVENC则提升了HEVC和AV1的编码质量,为4:2:2 H.264和HVEC编码提供了支持。另外,还有一个全新的AV1 Ultra High Quality(UHQ)模式,它可以用更多的时间去获得额外5%的质量提升。NVIDIA还表示,这个模式在RTX 40系列上也可用,不过Blackwell的质量是更好的。

外观设计和内部

GeForce RTX 5080 Founders Edition采用了新的包装设计,与上一代的Founders Edition有所不同,从材质、结构和配色来看都非常绿色环保。让我想起了一些手机的包装盒。不得不说拆箱的时候挺有仪式感的,先拔掉上下两块固定板,就能把上盖提起来,RTX 5080 FE就静静地躺在其中。

RTX 5080 FE保持了公版显卡一向优秀的外观设计,一看这标志性的无限标志外框就知道是NVIDIA本家的手笔。金属材质不但好看,而且触感非常棒。全新的散热解决方法让新一代FE显卡的身形变得苗条,正面两侧是定制的大直径风扇,背面两侧布满了大面积的格栅,以同一方向垂直排列。这次NVIDIA汲取了从GTX 10系列到RTX 40系列历代公版显卡在散热设计上的经验,在RTX 5080 FE显卡上引入了名为“Double Flow Through”的新款散热器设计,带来了更为高效的散热效率。

RTX 5080 FE显卡保持了双槽厚度,长度和高度分别为304mm和137mm,完全满足SFF-Ready标准的要求。如果与RTX 4080这些大家伙放在一起对比,那么体积上的差距就很明显了,特别在厚度上,RTX 5080 FE薄了许多。另外还能看到,RTX 5080 FE的12V-2x6供电接口采用了新的倾斜设计,视频接口也180°调转了,对于插线来说更为友好。同时因为散热设计的改变,I/O挡板没有了开口,尾部一体感很强。

和前几代一样,RTX 5080 FE的灯光除了在侧边的GeForce RTX接口外,还藏在了框架中间的X形处,启动时就会亮起白光,配合着整齐的格栅和平滑的外壳,可以说是是科幻又神秘。由于全新的散热设计,整体瘦身的RTX 5080 FE不需要显卡支架,也没在尾部留下螺丝孔,装在机箱里面很干净,没有别的东西来干扰它。

至于拆解的话,从性能影响的角度出发,就算我个人非常希望能够一窥其内部分外精巧的三片PCB设计,也不太好把它逐件分解——毕竟难点在于后面的恢复原状,光有外观可不行,性能也得到位。不过还好,NVIDIA特地出了一期聊Founders Edition散热设计的视频,从里面我们能知道这种与众不同的结构是怎么诞生的(下面的截图引用自该视频【链接】)。而我们后面向NVIDIA确认了,因为总功耗更低,所以RTX 5080 Founders Edition采用的是常规均热板设计,导热材料是硅脂。不过热管数量倒没有削减,也是两边各5根。

测试平台

本次的测试平台和RTX 5090 D一样,以AMD 锐龙7 9800X3D和X870E主板为核心,可确保显卡性能的全力发挥。说实话也没有换平台的必要。至于对比显卡的话,这次就丰富多彩很多了,不仅有RTX 4080,还有AMD Radeon RX 7900 XTX,甚至还有RTX 4090 D——它刚刚才在RTX 5090 D的测试里面亮相了,现在还要继续上班,就跟我一样。

而测试驱动则是Beta版的Game Ready驱动,不过因为测试的先后顺序问题,RTX 5080用的是572.02,其他的RTX显卡用的是571.86。系统则是最新版的Windows 11 24H2。在游戏记录数据这块,如果游戏自带Benchmark的话,我们会优先选择Benchmark提供的成绩;如果游戏需要手动测试,我们会用NVIDIA Frameview去记录成绩。由于这张显卡的高端定位,游戏的设置都是预设的最高了,光线追踪也是,只要游戏支持我们都会直接开全景光线追踪/路径追踪。

基准测试

来看看3DMark的数据先吧。RTX 5080在各方面都比RTX 4080好很多,算下来增幅有20%,考虑到AD103和GB203在规模上的相似性,你可以大致理解成这就是Blackwell的代际提升幅度。RTX 5080在4K分辨率的测试里面跟RTX 4090 D有着约10%的差距。和RX 7900 XTX对比的话,RTX 5080和它在传统光栅化性能上大致是持平的,不过光追性能就是另一回事了,绿色小队在光线追踪这块一直是BIG BOSS。

其实可以看到核心规模和基准测试的数据是很好对应的,RTX 5080的规模差不多是RTX 5090 D的50%,那么在传统和光追测试里面的分数也这样,RTX 5080的分数条比RTX 5090 D的一半多一点。当然,我们也就在3DMark这里展示一下GB202和GB203的差距,游戏数据就不放了,毕竟这两张卡在配置和售价上完全不是一个级别的。

游戏测试DLSS 4性能测试

在前些天的RTX 5090 D评测(还有上面的架构解析)里面,我们已经介绍了DLSS 4的特性,因此在这里我们就尽量不当复读机了。说起来,《赛博朋克2077》前几天正式推送了DLSS 4更新,如果你已经在用RTX显卡的话,现在是可以亲自体验DLSS 4里面的全新Transformer模型的——涵盖超分辨率和光线重建。当然,多帧生成仍然是RTX 50系显卡的专属功能。

这次我们一共测试了三款游戏,包括游戏内集成DLSS 4的《赛博朋克2077》和《星球大战》,以及通过NVIDIA App优设功能实现DLSS 4的《漫威争锋》。虽然我们目前测试的DLSS 4游戏数量是有限的,但当你们收到RTX 50系显卡的时候,应该就会有很多游戏获得原生DLSS 4或通过NVIDIA App的DLSS优设支持了,NVIDIA表示首日支持的游戏和应用数量会多达75款。

可以看到在全景光线追踪开启且DLSS 4全开的情况下,《赛博朋克2077》和《星球大战:亡命之徒》从不可玩状态直接冲到了三位数帧率。特别是《星球大战:亡命之徒》,在DLSS 3里面平均帧率只达到90fps,在多帧生成的支持下,就能冲上120乃至160fps的高峰!而延迟的话就更不用担心了,实在不行的话你也可以开3x多帧生成,反正此时帧率已经很够了。

至于Transformer和CNN新旧模型的对比上面,我们就直接引用RTX 5090 D测试时的截图了——因为新模型是从RTX 20-50系都能用的,所以你就算拿一张RTX 3080,用和我们同样的设置也能获得这种对比颇为鲜明的画面(当然,帧率肯定没那么高)。下面所有的对比截图均是在超分辨率性能挡获取的,屏幕分辨率为4K,图形设置为光线追踪超速。可以看到Transformer大幅度地改善了复杂场景里面的细节表现,比如门板夹层的金属部件、水面倒影和调料瓶瓶盖。

CNN模型CNN模型Transformer模型Transformer模型

CNN模型CNN模型Transformer模型Transformer模型

CNN模型CNN模型Transformer模型Transformer模型

4K分辨率

在常规游戏测试这里,我们维持了和RTX 5090 D同样的游戏阵容。一共有7款光栅化游戏和6款光追游戏参加4K分辨率的测试,至于参加2K分辨率测试的游戏就少点,是光栅化游戏和光追游戏各4款。毕竟RTX 5080是一款定位4K分辨率的显卡,前者才是重点。

在原生4K分辨率游戏这块,RTX 5080在数个项目中都理所当然地超越了RTX 4080。在一些项目中,RTX 5080甚至能逼近上一代旗舰RTX 4090 D,比如说在《极限竞速:地平线5》和《赛博朋克2077》这两款游戏中,这两张卡基本没有区别。和RX 7900 XTX对比的话,RTX 5080也在大部分游戏里面超越了这张RX 7000系列最好的显卡。

4K光追游戏这块,虽说我们是有测试RX 7900 XTX的,但是它的成绩都太低了,一些全景光追游戏对它来说根本吃不消。因此我们就只能在下面的2K分辨率里See you again了,现在来专心看几张RTX显卡的对比。得益于第四代RT Core,以及更多的RT Core数量,RTX 5080比起RTX 4080有着超过15%的提升!当然,RTX 4090 D的规模比RTX 5080大很多,所以它是力大砖飞,光追成绩比RTX 5080好也可以理解。不过别忘了,RTX 5080有多帧生成这一个秘密武器,可以让光追游戏的帧率成倍上升。

2K分辨率

因为分辨率的降低,所以可以看见几张显卡的差距都有所缩小。不过比例还是如4K分辨率那般,RTX 5080的光栅化游戏性能在RTX 4090 D和RX 7900 XTX之间,超过RTX 4080不少。光追的话也是如此,RTX 5080在三张RTX显卡里面排名第二。

AI与生产力测试AI生图与大语言模型

得益于Blackwell添加了对FP4的支持,在UL Procyon FLUX.1 AI生图测试里面,RTX 5080在FP4模式下仅用了10秒不到就生成了一张图,所用时间连RTX 4080的1/3都不到。在FP8模式中,RTX 5080也比RTX 4080快,不过差距小一点。

当然,常规的UL Procyon Stable Diffusion FP16我们也会测试。可见在这里RTX 5080仍然是要比RTX 4080快,在要求更高的Stable Diffusion XL中,RTX 5080生图时间明显比RTX 4080缩短。考虑到我们是用ONNX DirectML运行时测试的,要是Tensor RT日后正式更新了对RTX 50系列的支持,大概这生成时间还要短很多。

在LLM测试里面,RTX 5080在和输出Token速度这些关键指标上都比上一代快10-15%。

生产力创意软件

V-Ray和Blender都是跟3D创作有关的软件,在这里你可以看到RTX 5080是如何为创作提速的。在V-Ray 6 Benchmark中,RTX 5080要比RTX 4080快20%。

温度测试

老实说这一代Founders Edition的尺寸确实是一件颇为令人震惊的事,因此我们对它的温度表现自然很感兴趣。我们是在开放平台测试RTX 5080的散热。测试分为待机和满载两个场景。待机场景是进入系统后待机5分钟,而满载场景则是3DMark Speed Way运行10分钟。我们用GPU-Z的Log to file功能记录数据,环境温度是24.4摄氏度。经过测试,RTX 5080 FE的满载温度稳定在了68摄氏度上下。待机温度方面,则是由31.4缓慢上升到34.4摄氏度,和其他带智能启停的显卡一样。考虑到这仅仅是一个2槽位显卡,这成绩挺不错的。

功耗测试

我们通过手中的PCAT套件,分别精确地测量显卡PCIe、外接电源接口的功耗,显卡满载功耗在3DMark Speed Way压力测试中获得,待机功耗则是在进入系统后记录1分钟取平均值。测下来显卡的平均满载功耗达到了328W,峰值功耗的话,图里面是358W,不过记录数据里面最高有366W的记录,只是图里面刚好没有覆盖而已。而待机功耗绝大部分时间是在15W以下。总的来看是比RTX 4080/4080 SUPER这一代高了少许。电源推荐方面,其实NVIDIA官方建议的850W是够用的。

噪音测试

在GPU-Z的Log to File中我们同时记录下了显卡转速情况。烤机时,RTX 5080风扇转速最高的时候在1550RPM上下。接着我们把显卡放进了环境噪音小于10 dB(A)的消音实验室,把其风扇还原同样转速,然后在30CM的距离上测试其噪音水平,测得的数据是42.5BA。由于显卡在待机时风扇是停转的,所以就不用测试了。

总结

可能是由于早些时间的RTX 5090 D带来的冲击,加上数日来不分昼夜的持续测试,说实话RTX 5080给我带来的震撼其实没有RTX 5090 D那么厉害。然而必须要注意到的是,相比起规模暴涨的GB202,RTX 5080的GB203在组件的数量上和AD103更相似,在探讨架构代际提升这个话题上,RTX 5080是更有代表价值的。从游戏测试里可以看到,RTX 5080在光栅化和光追游戏性能上都是稳步提升,DLSS 4更是让其如虎添翼。个人认为,如果你还在停留在RTX 30乃至20系旗舰的话,RTX 5080确实可以让你一步跨越,直抵4K。而对于刚买了RTX 4080和RTX 4080 SUPER的玩家而言,他们大概可以松口气,虽然DLSS 4的确做到了四倍增幅,但DLSS 3的双倍真的也不赖了。

不过,我相信有这么一群玩家是最想要GeForce RTX 5080 Founders Edition的:他们同时追求体积的极限压缩和性能的登峰造极,如同《核舟记》的奇巧人一般,要在小空间里描绘大世界——对于这群ITX玩家而言,这一代Founders Edition绝对是最好的礼物。特别考虑到这几代以来,高端显卡只大不小的趋势,NVIDIA能提出SFF-Ready标准并且身体力行,做出这么一张双槽猛兽,确实称得上是历史转折。

显卡迷你天梯榜 (完整显卡天梯榜)

最后,还是说一说售价,GeForce RTX 5080 Founders Edition的价格为8299元,相较RTX 40系发布时RTX 4090和RTX 4080时过于相近的定价,RTX 50系这次旗舰的高低搭配还是比较合理的。如果你只是拿来玩游戏,那RTX 5080确实是很不错的一张高端显卡。

0 阅读:461
评论列表
  • 2025-01-30 21:33

    看老卡什么时间降价,我的p106_100再战3年[大笑]

  • 2025-01-30 07:03

    time spy成绩呢? 太长了

  • 2025-01-30 00:39

    这应该叫5070tis,而不是5080

  • 2025-01-30 01:51

    4090的风还没吹够,怎么就翻篇了?公司太缺钱了吗?!

超能网

简介:专注优质创作,致力价值传播。