GeForceRTX5080天梯榜首发评测：超猛能耗比造就极致尺寸

RTX 5090 D和RTX 5080是同时开售的，不过它们的解禁时间不那么一样。前段时间我们已经评测了RTX 5090 D，今天我们就来看一看次旗舰GeForce RTX 5080。特别值得一提的是，这次RTX 5080是有Founders Edition的——NVIDIA自家的设计向来自成一派，本次RTX 50系更因其符合SFF-Ready（适用于SFF小尺寸）标准的超薄设计而备受关注。讲真，我甚至觉得不少爱好者会直接因为Founders Edition的这个尺寸跳过性能展示部分直接下单了，不过这倒不是不写评测到街上放烟花的理由。因此，接下来就让我们充满好奇心，好好地看一下这张显卡内与外。

规格表

硬件架构解析

这里的架构解析主要是涵盖RTX 50系GPU的硬件方面，如果想要阅读包括神经网络渲染、RTX Mega Geometry等技术的详细架构解析，请阅读RTX 5090 D的评测：《iGame GeForce RTX 5090 D Advanced评测：散热稳压大核心,DLSS 4登峰造极》

Blackwell GB203核心：RTX 5080出场即满血

和上一代序列一样，轮到RTX 5080的就是GB203核心了。完整的GB203核心共拥有456亿晶体管。前面在RTX 5090 D评测已经说过，在Blackwell这一代上，还是GPC-TPC-SM层级设计。GB203共拥有7 GPC，42 TPC，84 SM，10752个CUDA核心——我想这里你能看出一点差别：怎么TPC是42个？是的，虽然目前我们还没有完整的核心架构图，但是用简单的乘除法就知道，GB203上每组GPC还是和前代一样包含6组TPC。不过有一个好消息是，这次RTX 5080出场即满血，这点跟它的前辈不一样。

在GPC段，可见它包含的TPC从Ada Lovelace的6组扩展到了8组。不过布局上还是一样的，一个独立的光栅引擎，两个ROP分区（每个包含8个ROP单元），而每组TPC包含两组SM。

到达SM段，这里的变化是比较大的。首先，现在所有的32个CUDA核心都能执行FP32/INT32运算了，因此INT32的算力可以说是增加了一倍。不过在一个时钟周期里面，核心只能二选一运算，要不FP32，要不INT32。NVIDIA表示这种设计是为神经网络着色器优化的。Tensor Core和RT Core自然也有升级，不过让我们先说完新的显存。

GDDR7显存：带宽高能耗低

RTX 40系上的GDDR6X是NVIDIA和美光合作打造的，因此你就只能在NVIDIA的产品上看到GDDR6X，而且部件号无一例外全是D8BZC，别无二家了属于是。在RTX 50系列这一代上，NVIDIA是和标准制定者JEDEC固态技术协会合作，推出了全新的GDDR7显存。

NVIDIA表示，GDDR7显存选择了PAM3调制，这能让它在信噪比方面有所提升，通道的密度也增加了。性能方面，GDDR7能带来更高的带宽，同时比GDDR6X/GDDR6要节能得多。

第5代Tensor Core：新增FP4支持

第5代Tensor Core继承了上一代架构的特性，并新增了FP4、FP6的支持，还把FP8 Transformer Engine更新到了第二代。

FP4支持显然是大家比较关心的。NVIDIA对此的解释是，随着生成式AI模型能力的提升，常规的FP16模型对硬件特别是显存的要求与日俱增，在单张显卡上运行这些模型会变得非常困难。而FP4模型需要的显存更小，在TensorRT模型优化器（Model Optimizer）的支持下还能做到几乎没有质量损失，对于整个RTX 50系列来说是很友好的，毕竟不是每张卡都有RTX 5090 D那么大显存。

为什么要强调单张卡也可以运行呢？这其实跟游戏也有关系，在我们之前的报道里说过，NVIDIA一直在捣鼓NVIDIA ACE这个AI NPC技术，再加上别的基于AI的游戏技术也要用到Tensor Core，因此提高模型的运行效率很有必要。

第4代RT Core：为RTX Mega Geometry准备

在第4代RT Core上面我们仍然能见到一些熟悉的组件，比如Box Intersection Engine和Opacity Micromap Engine这两个加速引擎，它们分别针对BVH树遍历和透明物体进行加速。而新增的组件包括Triangle Cluster Intersection Engine和Triangle Cluster Compression Engine，以及Linear Swept Spheres。

AI-Management Processor和着色器执行重排序2.0

AI-Management Process（AMP）在架构图上和GigaThread Engine并列，可见它也是个调度器。AMP的本质是一个位于管线前端的RISC-V处理器，它支持Windows硬件加速GPU计划，能够更自由地管理GPU。

AMP同样跟AI游戏有关。这里举个例子，本地运行LLM的话，它们首次响应的时间一般是比较慢的，这放在知识库聊天机器人里还好，大家可能都习惯了，但是对于游戏来说，这就是另一种情景了：试想一下你打开游戏加载存档，刚想找npc接个任务，结果npc憋了半天才冒出一句“你好”，这确实很破坏游戏体验。

同时运作的话，LLM的响应时间变慢，游戏帧率也会受影响

而在AMP的支持下，CUDA、RT Core和Tensor Core三大部分可以协调工作。如图所示，AMP提高了LLM的优先级，令其更早启动，做到在游戏中及时响应，并同时让游戏引擎、DLSS 4保持稳定的帧率输出。

在Ada Lovelace上的着色器执行重排序（SER）主要是针对光线追踪而设计的。通过对光线追踪任务的动态重排序，该功能可充分提高硬件使用率。而Blackwell上的SER 2.0还可以将神经网络的负载直接发送至Tensor Core处理，加速神经网络渲染。NVIDIA表示，Blackwell上的SER重排序逻辑效率达到了前代的2倍，降低开销之余还能提高精准度。

DLSS 4：多帧生成还有模型升级

我们终于说到DLSS 4了！说实话DLSS 3引入的帧生成功能已经挺让我满意的了，而DLSS 4则是更进一步，带来了多帧生成功能。这个我想应该不用过多解释，就是渲染1帧最高生成3帧。另外，我在最近的Editor's Day上问过NVIDIA关于多帧生成极限的问题，他们表示这AI模型是可以生成更多帧的，但是3帧是一个比较合理的值，因为DLSS 4是多个AI模型一起工作的，所以工程师在设计时不单单要考虑帧生成的问题，再说了，生成3帧带来的提升已经足够强力了。

接下来我们就逐一拆分DLSS 4的各项组件，看看它们有什么更新，又是如何协同工作。

首先是大家都关注的帧生成，NVIDIA Blackwell的帧生成模型比上一代快了40%，同时显存占用降低30%。同时，用于提供光流场信息的不再是RTX 40系列上的光流加速器，而是一个更高效的AI模型。

不过如此一来新的问题就产生了：在Ada Lovelace上，DLSS 3是渲染一帧生成新的一帧，就是帧1，1.1，2，2.1...这种，把控每帧的输出顺序还是比较容易的，因为生成的帧1.1总在渲染的帧1后面，如果来不及输出帧1.1，那就把它丢掉，直接输出帧2就好。而RTX 40系上的DLSS 4是1，1.1，1.2，1.3，2，2.1，2.2，2.3，3...，中间整整隔了生成的3帧，怎么不让输出顺序乱套就是新的问题。为此，Blackwell引入了硬件级Flip Metering（这个名词确实很难描述，直译是翻转测量），这个组件将帧平滑逻辑从CPU转移到GPU的显示引擎上，让GPU更精确地掌控显示每一帧的节奏，降低帧与帧之间的时间波动。开启后NVIDIA表示，Blackwell的显示引擎获得了两倍像素处理能力，这样就可以支持高分辨率、高刷新率下的Flip Metering。

由于DLSS 4多帧生成需要用到第5代Tensor Core的强劲算力去计算光流场和生成多帧，因此这个功能目前是Blackwell独占的。

然后比较让人惊喜的是，超分辨率、光线重建、DLAA也获得了更新，它们的模型从CNN换成了Transformer，一个采用自注意力机制的神经网络，适用于从RTX 20-50的全线RTX GPU。不过我想在这里说明CNN和Transformer两个神经网络有什么区别绝对会喧宾夺主，光是编码器和解码器就够喝一壶的了。因此只需要知道新的模型能够提高画面的稳定性，提升光照细节，给予动态物体更多细节即可。大伙可以在下面的DLSS 4测试中非常直观地看到这两个模型的画面差别。

NVENC和NVDEC新增Y′CbCr 4:2:2支持

目前很多摄像机都支持录制4:2:2格式的视频，这是有原因的：4:2:2相比起4:4:4更节省储存空间，但是比起4:2:0能保存更多的颜色，这样一来就给后期调色留下了充足的空间。Blackwell这次新增了4:2:2的编解码支持，可提高创作者的效率，比如说导出时间减少，更流畅的多路回放等。NVIDIA表示，第6代NVDEC可同步解码和播放多达8个4K60 4:2:2视频流。

而第9代NVENC则提升了HEVC和AV1的编码质量，为4:2:2 H.264和HVEC编码提供了支持。另外，还有一个全新的AV1 Ultra High Quality（UHQ）模式，它可以用更多的时间去获得额外5%的质量提升。NVIDIA还表示，这个模式在RTX 40系列上也可用，不过Blackwell的质量是更好的。

外观设计和内部

GeForce RTX 5080 Founders Edition采用了新的包装设计，与上一代的Founders Edition有所不同，从材质、结构和配色来看都非常绿色环保。让我想起了一些手机的包装盒。不得不说拆箱的时候挺有仪式感的，先拔掉上下两块固定板，就能把上盖提起来，RTX 5080 FE就静静地躺在其中。

RTX 5080 FE保持了公版显卡一向优秀的外观设计，一看这标志性的无限标志外框就知道是NVIDIA本家的手笔。金属材质不但好看，而且触感非常棒。全新的散热解决方法让新一代FE显卡的身形变得苗条，正面两侧是定制的大直径风扇，背面两侧布满了大面积的格栅，以同一方向垂直排列。这次NVIDIA汲取了从GTX 10系列到RTX 40系列历代公版显卡在散热设计上的经验，在RTX 5080 FE显卡上引入了名为“Double Flow Through”的新款散热器设计，带来了更为高效的散热效率。

RTX 5080 FE显卡保持了双槽厚度，长度和高度分别为304mm和137mm，完全满足SFF-Ready标准的要求。如果与RTX 4080这些大家伙放在一起对比，那么体积上的差距就很明显了，特别在厚度上，RTX 5080 FE薄了许多。另外还能看到，RTX 5080 FE的12V-2x6供电接口采用了新的倾斜设计，视频接口也180°调转了，对于插线来说更为友好。同时因为散热设计的改变，I/O挡板没有了开口，尾部一体感很强。

和前几代一样，RTX 5080 FE的灯光除了在侧边的GeForce RTX接口外，还藏在了框架中间的X形处，启动时就会亮起白光，配合着整齐的格栅和平滑的外壳，可以说是是科幻又神秘。由于全新的散热设计，整体瘦身的RTX 5080 FE不需要显卡支架，也没在尾部留下螺丝孔，装在机箱里面很干净，没有别的东西来干扰它。

至于拆解的话，从性能影响的角度出发，就算我个人非常希望能够一窥其内部分外精巧的三片PCB设计，也不太好把它逐件分解——毕竟难点在于后面的恢复原状，光有外观可不行，性能也得到位。不过还好，NVIDIA特地出了一期聊Founders Edition散热设计的视频，从里面我们能知道这种与众不同的结构是怎么诞生的（下面的截图引用自该视频【链接】）。而我们后面向NVIDIA确认了，因为总功耗更低，所以RTX 5080 Founders Edition采用的是常规均热板设计，导热材料是硅脂。不过热管数量倒没有削减，也是两边各5根。

测试平台

本次的测试平台和RTX 5090 D一样，以AMD 锐龙7 9800X3D和X870E主板为核心，可确保显卡性能的全力发挥。说实话也没有换平台的必要。至于对比显卡的话，这次就丰富多彩很多了，不仅有RTX 4080，还有AMD Radeon RX 7900 XTX，甚至还有RTX 4090 D——它刚刚才在RTX 5090 D的测试里面亮相了，现在还要继续上班，就跟我一样。

而测试驱动则是Beta版的Game Ready驱动，不过因为测试的先后顺序问题，RTX 5080用的是572.02，其他的RTX显卡用的是571.86。系统则是最新版的Windows 11 24H2。在游戏记录数据这块，如果游戏自带Benchmark的话，我们会优先选择Benchmark提供的成绩；如果游戏需要手动测试，我们会用NVIDIA Frameview去记录成绩。由于这张显卡的高端定位，游戏的设置都是预设的最高了，光线追踪也是，只要游戏支持我们都会直接开全景光线追踪/路径追踪。

基准测试

来看看3DMark的数据先吧。RTX 5080在各方面都比RTX 4080好很多，算下来增幅有20%，考虑到AD103和GB203在规模上的相似性，你可以大致理解成这就是Blackwell的代际提升幅度。RTX 5080在4K分辨率的测试里面跟RTX 4090 D有着约10%的差距。和RX 7900 XTX对比的话，RTX 5080和它在传统光栅化性能上大致是持平的，不过光追性能就是另一回事了，绿色小队在光线追踪这块一直是BIG BOSS。

其实可以看到核心规模和基准测试的数据是很好对应的，RTX 5080的规模差不多是RTX 5090 D的50%，那么在传统和光追测试里面的分数也这样，RTX 5080的分数条比RTX 5090 D的一半多一点。当然，我们也就在3DMark这里展示一下GB202和GB203的差距，游戏数据就不放了，毕竟这两张卡在配置和售价上完全不是一个级别的。

游戏测试DLSS 4性能测试

在前些天的RTX 5090 D评测（还有上面的架构解析）里面，我们已经介绍了DLSS 4的特性，因此在这里我们就尽量不当复读机了。说起来，《赛博朋克2077》前几天正式推送了DLSS 4更新，如果你已经在用RTX显卡的话，现在是可以亲自体验DLSS 4里面的全新Transformer模型的——涵盖超分辨率和光线重建。当然，多帧生成仍然是RTX 50系显卡的专属功能。

这次我们一共测试了三款游戏，包括游戏内集成DLSS 4的《赛博朋克2077》和《星球大战》，以及通过NVIDIA App优设功能实现DLSS 4的《漫威争锋》。虽然我们目前测试的DLSS 4游戏数量是有限的，但当你们收到RTX 50系显卡的时候，应该就会有很多游戏获得原生DLSS 4或通过NVIDIA App的DLSS优设支持了，NVIDIA表示首日支持的游戏和应用数量会多达75款。

可以看到在全景光线追踪开启且DLSS 4全开的情况下，《赛博朋克2077》和《星球大战：亡命之徒》从不可玩状态直接冲到了三位数帧率。特别是《星球大战：亡命之徒》，在DLSS 3里面平均帧率只达到90fps，在多帧生成的支持下，就能冲上120乃至160fps的高峰！而延迟的话就更不用担心了，实在不行的话你也可以开3x多帧生成，反正此时帧率已经很够了。

至于Transformer和CNN新旧模型的对比上面，我们就直接引用RTX 5090 D测试时的截图了——因为新模型是从RTX 20-50系都能用的，所以你就算拿一张RTX 3080，用和我们同样的设置也能获得这种对比颇为鲜明的画面（当然，帧率肯定没那么高）。下面所有的对比截图均是在超分辨率性能挡获取的，屏幕分辨率为4K，图形设置为光线追踪超速。可以看到Transformer大幅度地改善了复杂场景里面的细节表现，比如门板夹层的金属部件、水面倒影和调料瓶瓶盖。

CNN模型CNN模型Transformer模型Transformer模型

4K分辨率

在常规游戏测试这里，我们维持了和RTX 5090 D同样的游戏阵容。一共有7款光栅化游戏和6款光追游戏参加4K分辨率的测试，至于参加2K分辨率测试的游戏就少点，是光栅化游戏和光追游戏各4款。毕竟RTX 5080是一款定位4K分辨率的显卡，前者才是重点。

在原生4K分辨率游戏这块，RTX 5080在数个项目中都理所当然地超越了RTX 4080。在一些项目中，RTX 5080甚至能逼近上一代旗舰RTX 4090 D，比如说在《极限竞速：地平线5》和《赛博朋克2077》这两款游戏中，这两张卡基本没有区别。和RX 7900 XTX对比的话，RTX 5080也在大部分游戏里面超越了这张RX 7000系列最好的显卡。

4K光追游戏这块，虽说我们是有测试RX 7900 XTX的，但是它的成绩都太低了，一些全景光追游戏对它来说根本吃不消。因此我们就只能在下面的2K分辨率里See you again了，现在来专心看几张RTX显卡的对比。得益于第四代RT Core，以及更多的RT Core数量，RTX 5080比起RTX 4080有着超过15%的提升！当然，RTX 4090 D的规模比RTX 5080大很多，所以它是力大砖飞，光追成绩比RTX 5080好也可以理解。不过别忘了，RTX 5080有多帧生成这一个秘密武器，可以让光追游戏的帧率成倍上升。

2K分辨率

因为分辨率的降低，所以可以看见几张显卡的差距都有所缩小。不过比例还是如4K分辨率那般，RTX 5080的光栅化游戏性能在RTX 4090 D和RX 7900 XTX之间，超过RTX 4080不少。光追的话也是如此，RTX 5080在三张RTX显卡里面排名第二。

AI与生产力测试AI生图与大语言模型

得益于Blackwell添加了对FP4的支持，在UL Procyon FLUX.1 AI生图测试里面，RTX 5080在FP4模式下仅用了10秒不到就生成了一张图，所用时间连RTX 4080的1/3都不到。在FP8模式中，RTX 5080也比RTX 4080快，不过差距小一点。

当然，常规的UL Procyon Stable Diffusion FP16我们也会测试。可见在这里RTX 5080仍然是要比RTX 4080快，在要求更高的Stable Diffusion XL中，RTX 5080生图时间明显比RTX 4080缩短。考虑到我们是用ONNX DirectML运行时测试的，要是Tensor RT日后正式更新了对RTX 50系列的支持，大概这生成时间还要短很多。

在LLM测试里面，RTX 5080在和输出Token速度这些关键指标上都比上一代快10-15%。

生产力创意软件

V-Ray和Blender都是跟3D创作有关的软件，在这里你可以看到RTX 5080是如何为创作提速的。在V-Ray 6 Benchmark中，RTX 5080要比RTX 4080快20%。

温度测试

老实说这一代Founders Edition的尺寸确实是一件颇为令人震惊的事，因此我们对它的温度表现自然很感兴趣。我们是在开放平台测试RTX 5080的散热。测试分为待机和满载两个场景。待机场景是进入系统后待机5分钟，而满载场景则是3DMark Speed Way运行10分钟。我们用GPU-Z的Log to file功能记录数据，环境温度是24.4摄氏度。经过测试，RTX 5080 FE的满载温度稳定在了68摄氏度上下。待机温度方面，则是由31.4缓慢上升到34.4摄氏度，和其他带智能启停的显卡一样。考虑到这仅仅是一个2槽位显卡，这成绩挺不错的。

功耗测试

我们通过手中的PCAT套件，分别精确地测量显卡PCIe、外接电源接口的功耗，显卡满载功耗在3DMark Speed Way压力测试中获得，待机功耗则是在进入系统后记录1分钟取平均值。测下来显卡的平均满载功耗达到了328W，峰值功耗的话，图里面是358W，不过记录数据里面最高有366W的记录，只是图里面刚好没有覆盖而已。而待机功耗绝大部分时间是在15W以下。总的来看是比RTX 4080/4080 SUPER这一代高了少许。电源推荐方面，其实NVIDIA官方建议的850W是够用的。

噪音测试

在GPU-Z的Log to File中我们同时记录下了显卡转速情况。烤机时，RTX 5080风扇转速最高的时候在1550RPM上下。接着我们把显卡放进了环境噪音小于10 dB(A)的消音实验室，把其风扇还原同样转速，然后在30CM的距离上测试其噪音水平，测得的数据是42.5BA。由于显卡在待机时风扇是停转的，所以就不用测试了。

总结

可能是由于早些时间的RTX 5090 D带来的冲击，加上数日来不分昼夜的持续测试，说实话RTX 5080给我带来的震撼其实没有RTX 5090 D那么厉害。然而必须要注意到的是，相比起规模暴涨的GB202，RTX 5080的GB203在组件的数量上和AD103更相似，在探讨架构代际提升这个话题上，RTX 5080是更有代表价值的。从游戏测试里可以看到，RTX 5080在光栅化和光追游戏性能上都是稳步提升，DLSS 4更是让其如虎添翼。个人认为，如果你还在停留在RTX 30乃至20系旗舰的话，RTX 5080确实可以让你一步跨越，直抵4K。而对于刚买了RTX 4080和RTX 4080 SUPER的玩家而言，他们大概可以松口气，虽然DLSS 4的确做到了四倍增幅，但DLSS 3的双倍真的也不赖了。

不过，我相信有这么一群玩家是最想要GeForce RTX 5080 Founders Edition的：他们同时追求体积的极限压缩和性能的登峰造极，如同《核舟记》的奇巧人一般，要在小空间里描绘大世界——对于这群ITX玩家而言，这一代Founders Edition绝对是最好的礼物。特别考虑到这几代以来，高端显卡只大不小的趋势，NVIDIA能提出SFF-Ready标准并且身体力行，做出这么一张双槽猛兽，确实称得上是历史转折。

显卡迷你天梯榜（完整显卡天梯榜）

最后，还是说一说售价，GeForce RTX 5080 Founders Edition的价格为8299元，相较RTX 40系发布时RTX 4090和RTX 4080时过于相近的定价，RTX 50系这次旗舰的高低搭配还是比较合理的。如果你只是拿来玩游戏，那RTX 5080确实是很不错的一张高端显卡。

呐呐君 7

2025-01-30 19:31

我以后要开个发电厂用好显卡，一切用堆电力换来的，终将玩完，未来的方向一定是低能耗高性能。
柠柒 6

2025-01-30 00:39

这应该叫5070tis，而不是5080
焙沂闹培玖星 5

2025-01-30 21:33

看老卡什么时间降价，我的p106_100再战3年[大笑]
乂伫咲 5

2025-01-30 04:04

有一说一非公版超频以后的5080还挺强的，但是价格太高，性价比太低。如果非公版5080在半年内降到8000以内，即接替4080S的位置。那么时候值得购买的。否则以现在非公首发价格1W2～3来说，属于谁买谁SB的情况，不如4090D。
用户57xxx06 4

2025-01-31 05:00

功耗太高等4060降到白菜价入手4060[呲牙笑]

梦醒听雨回复:

3万2，实际提升不大，主要看价钱

02-01 07:58
Ping-Pong Pot 3

2025-01-30 07:03

time spy成绩呢？太长了
炁源 2

2025-01-31 13:36

这样的能用好几年了[得瑟]
米粒小铺 2

2025-01-30 01:51

4090的风还没吹够，怎么就翻篇了？公司太缺钱了吗？！
Downtown Train 2

2025-01-31 00:37

我几个堂兄年薪30万/20多万。我年薪8万[哭哭]我还有什么脸打游戏，以后要玩你们玩吧，我去工作去了
姚小章 2

2025-01-31 12:30

7900xtx性价比还在提升
老于 2

2025-02-01 08:30

这个东西能不能进行AI大模型训练？
被淘宝割了韭菜的韭菜哥 1

2025-01-31 12:29

苏妈把Deepspeek内嵌了，那个是直接汇编级的绕过CUDA，英伟达瞬间不香了！
Bibyyy 1

2025-01-30 16:10

一群帮忙吹的，性价比不高
你说好吗 1

2025-01-30 14:35

50系列显存各是多少
SWAT

2025-02-01 11:29

目前显卡厂商的策略是:超能完全向算力卡倾斜生产少量消费级再把价格无限制的抬高这样不耽误挣大钱也一点不怕卡卖不出去只是ds给了它们当头一棒算力卡若是真被打死了猜猜消费级显卡会是什么价？[滑稽笑]

玩酷网

GeForceRTX5080天梯榜首发评测：超猛能耗比造就极致尺寸

超能网