PC处理器用3DV-Cache堆缓存,现阶段真的值得吗?

芯片迷不休息 2024-12-17 08:22:41
半导体工程师 2024年12月16日 09:14 北京

最近AMD Ryzen R7 7800X3D突然又涨到了3000元往上的价格,不知道是台积电一侧3DIC先进封装工艺产能吃紧,还是需求侧突然对这类带更大LLC的处理器有了新需求。

我们之前特别撰文探讨过AMD的3D V-Cache技术。简单来说,这是一种通过3D先进封装来增加处理器L3 cache容量的技术——而且这个3D先进封装用的还是hybrid bonding混合键和这种难度系数和技术含量相对很高的方案,主要应当是考虑到带宽和延迟需求。

比如Ryzen 7800X3D把L3 cache堆到了96MB;更高规格的7900X3D、7950X3D,相比没有用3D V-cache的常规版CPU,L3 cache都扩容了1倍,达到128MB。服务器Epyc处理器这边,8个CCD每片如果都往上叠3D V-ache,则总共能堆出768MB的L3 cache——比当年的主存都大...

堆更大的L3 cache自然有利于较大working set size的负载实现更高的性能。那具体是什么负载呢?其实早在2021年AMD面向PC推这种3D V-cache技术时就已经明确了,这种型号后缀多了“3D”的Ryzen处理器主打游戏(Gaming)——抛开数据中心不谈,至少在PC应用场景内就是如此。当初在Ryzen 5000系列处理器发布时,AMD就提过3D V-cache能让游戏性能平均提升15%。

会不会是因为《黑神话:悟空》正当火热,所以游戏市场周边对此类带3D V-cache的CPU产生了新一波的需求,带动了7800X3D, 7600X3D这类处理器价格的上涨呢?

*测试平台:主板 (华硕TUF GAMING B650M-PLUS WIFI, MAG B760M MORTAR WIFI), 显卡 (GeForce RTX 4070), 内存 (DDR5-6000), 电源 (ANTEC 1000W), 操作系统 (Windows 11 23H2); 下同…

其实从测试数据来看,单就《黑神话:悟空》这一款游戏,Ryzen 7800X3D实际帧数表现是不及价格还略低的酷睿i7-14700KF的。以CPU为瓶颈的测试下(1080p 推荐画质),前者的帧率甚至比后者低了20%以上——当然实际游玩过程,通常在画质选择上以GPU为瓶颈,不会有这么大的差异。

抛开近期Intel深陷的负面新闻不谈,本文尝试再说道说道3D V-cache在PC领域内的价值,以及堆LLC是不是真的有那么神。

最大价值点:游戏

有关3D V-cache技术,及hybrid bonding先进封装,本文就不再多做赘述了。就制造和封装角度来看,这称得上是尖端技术在PC处理器上的应用先驱。而本文主要把注意力集中到应用上。

文首提到的《黑神话:悟空》应该说是个例。就综合游戏性能而言,Ryzen 7800X3D还是表现出了不错的优势的——尤其是相较自家不带V-cache的Ryzen 7800X。主要表现在一些L3 cache敏感型游戏,典型如《永劫无间》《Lol》《Dota 2》等;7800X3D都比酷睿i7-14700KF表现更优。

去年Chips and Cheese对3D V-cache版的AMD Ryzen处理器做了micro-benchmark。抛开3D V-cache带来额外的延迟、些微带宽降低不谈,Chips and Cheese主要测了4款游戏,分别是《GHPC(Gunner, HEAT, PC)》《赛博朋克2077》《DCS(数字战斗模拟)》《使命召唤17:黑色行动冷战》:主要是想看看加了V-cache,相较于没有V-cache的核心,对游戏负载带来了怎样的影响。

《赛博朋克2077》测试,来源:Chips and Cheese

在《GHPC》游戏中,V-cache版核心相比不带V-cache的核心,有着33%的L3 cache命中率提升(58.65%→78.00%),整体IPC提升在9.67%左右。《赛博朋克2077》游戏中,更大的L3 cache能够达成13.4%的IPC领先(L3命中率45.99%→63.74%);《使命召唤17》的情况也类似,3D V-cache能够获得19%的IPC增长(L3命中率46.51%→68.68%)——突有一种处理器架构换代的即视感。

对这三款游戏来说,L3 cache命中率的显著提升完全能够抵消3D V-cache更高的缓存延迟——而且Zen 4架构增大了L2 cache的容量,很大程度也能缓解L3 cache延迟的增加。

值得一提的是,《使命召唤》游戏过程中测得的IPC相比其他游戏更低。从更细粒度的管线各阶段分析来看,Renamer寄存器重命名是其中瓶颈。V-cache的增加能够显著降低后端瓶颈——因为更高的cache命中率也就能更好地喂给后端执行单元;但它对前端性能改善较小。

最后《DCS》的情况略有不同,L3命中率可提升幅度非常有限(89.06%→92.42%),此时3D V-cache更高的延迟开始发挥作用,相比不带V-cache的标准核心,IPC些微落后了2.3%左右。其实考虑更多系统层面变量,这点变化可能并不足以较大程度影响游戏帧率;不过此例至少能够说明,某些情况下,即便是在游戏场景内,缓存延迟的影响也大于容量。

《DCS游戏测试》,来源:Chips and Cheese

另外值得一提的是,更大的cache也不止能让游戏受惠,还有文件压缩(7-Zip)和视频编码(libx264)负载也能因此得到IPC提升。更具体的推荐去看一看Chips and Cheese的原文。只不过个别应用场景的IPC提升,并不是故事的全部。

更多缓存 or 更高算力?

Chips and Cheese的测试中,我们认为比较有趣的是libx264视频编码测试。更大的L3 cache是能够帮助提升视频编解码性能的,测试结果也明确L3命中率提升10%左右,IPC提升因此也有4.9%。但在绝对性能上,这项测试里不带V-cache的CPU核心性能优于带V-cache的核心。

原因很简单,前者的核心频率比后者高了7%;更高的IPC不足以弥补频率缺失。这实际上在我们看来也成为3D V-cache的关键问题:有时不得不以更低的核心频率和核心数为代价,来换取更大的L3 cache。

我们知道,芯片设计是PPA权衡的艺术,加上3D V-cache意味着更大的die size和成本,以及与计算单元的功耗资源分配权衡。

同型号后缀是否带3D对比,如7950X的核心基频就比7950X3D高300Mhz。考虑价格,也就是芯片area面积因素:7950X3D目前京东售价4099元,而7950X的售价则为3449元——非官方的3D V-cache版CPU价格浮动会更大。

对用户而言,这就是个钱究竟是花在cache上,还是花在核心数/频率上的问题。要知道,现在7800X3D的价格是比7900X还高的。如果我们引入竞争对手的产品,那么情况就更复杂了——但问题的本质不变:钱是花在cache上,还是花在计算核心上。

如文首所述,Ryzen 7800X3D目前的价格是3000元左右;酷睿i7-14700KF的价格2700元。前者有着更大的L3 cache容量,后者有着更多的计算核心资源。

在更单纯考察核心算力资源的情况下,参照Cinebench R23的单线程与多线程渲染测试结果,这两颗处理器的情况是这样的:

另外,基于7800X3D的优势项,尝试集合实测性能下7800X3D表现不错的游戏有:

这番对比大概更有——“你掏钱是愿意买更多核心/更高的频率,还是愿意花在L3 cache上”——的意思。因为我们无法明确不同制造工艺及对应芯片面积的成本差异,抛开市场对价格的影响因素,这个问题的答案大方向可能取决于,你用PC究竟是为了做什么。

回到同Ryzen体系下的对比,去年AnandTech对Ryzen 7950X和7950X3D的评测显示,由于前者有着更高的核心频率及更宽松的TDP,在办公、网页、渲染、编码等主流场景,以及涉及兼容性的老测试中,表现出了更优的性能;科学与模拟仿真测试,两者互有胜负;

游戏测试的情况则相对复杂:4K高分辨率下,性能瓶颈主要在GPU侧,7950X3D的胜率略高——只不过受制于GPU,帧率领先非常有限;2k分辨率下,7950X3D的胜率更高;1080p分辨率大约是7950X3D的主场,在更多3A游戏中表现出色......

简单来说,基于PC大众使用场景,3D V-cache技术的价值主要表现在游戏应用上——而其他主流应用场景下,3D V-cache并没有什么软用,有时候甚至会帮倒忙。

所以AMD对这项技术的定位,从5800X3D起就很明确了:游戏。只不过即便是在游戏测试场景内,如前文Chips and Cheese测试的《DCS》以及文首《黑神话:悟空》那样,也总有些游戏实际是更吃高频与核心算力——或者说资源堆在核心和频率上更划算。

游戏场景下的一些讲究

早就听闻7800X3D是游戏神U,但实际跨品牌特别选择一些游戏的话,酷睿i7-14700KF也是可以让Ryzen 7800X3D的场面非常难看的,比如像下面这样:

一般在游戏过程中,CPU负责处理游戏逻辑、AI、物理计算等非图形相关工作。这些任务也需要快速访问数据。那么更大的CPU cache可存储这些数据,就比频繁访问更慢的主内存更好。

在与GPU协作的过程中,CPU准备面向GPU的数据和指令;更大缓存也意味着指挥GPU的时间能减少。另外,有些游戏可充分利用CPU多核资源,更大的缓存也有利于核间数据共享,提升多线程游戏引擎的性能。

那为什么从测试结果来看,3D V-cache对于部分游戏未能表现得很友好呢?我们猜测这里面还是有不同变量的。比如说Ryzen处理器基于chiplet方案,每8个核心为一片CCD(die)——比如对于7900X3D/7950X3D这样的处理器而言,就需要两片CCD。

3D V-cache只位于其中一片CCD之上,另一片CCD上方是没有V-cache的。这就造成了两边资源的不同,甚至颇有点“异构”的意思。那么游戏究竟跑在哪边的CCD上,就颇有讲究了。这对驱动提出了要求,检测特定负载,决定它更需要cache,还是更需要高频率——这甚至成为了一个调度问题。这一点可能会成为限制高效发挥CPU性能的一部分。

另外,也不是所有游戏都对cache大小表现出敏感。如果程序本身就有更加可预测的存储访问模式,或者更小的working set,就不怎么会从更大容量的LLC获得什么高收益。

还有比较典型的事实,部分策略类游戏和老游戏更吃单核性能——Intel此时就有显著优势了。以及不同游戏自身的特性也决定了其性能瓶颈。

比较典型的像是《微软模拟飞行》。很多玩家应该知道,这是个相当吃CPU资源的游戏。这可能与其游戏性质有关:对实时天气、物理、空中交通的模拟,是很吃CPU资源的;另外游戏内有较多数量的对象——包括建筑、树木、车辆等,也都增加了CPU负载;加上对象LOD,以及主线程追求更高的单线程性能...杂糅不同要素,酷睿i7-14700KF因此能在这款游戏中表现出显著优于Ryzen 7800X3D的性能。

当然了,在很多游戏场景下,3D V-cache仍然是表现出了性能优势的——这一点不应被否认。只不过就综合性能角度考虑,3D V-cache的确是个需要被权衡的参考因素。

从系统层面来看,包括游戏是否更依赖单核性能,游戏引擎面向硬件的架构优化,内存延迟与带宽表现,以及游戏自身的特性都有关系。《全面战争:三国》《骑马与砍杀2》《GTA5》等游戏中,3D V-cache未能讨到好处也就可以理解了。

Intel在此间的某些变量要素都有优势,包括单核性能、实际的内存延迟和带宽表现等。还有个关键,也在于两颗处理器算力资源的不对等。

3D V-Cache真的值得吗?

总感觉对比酷睿i7-14700KF和Ryzen 7800X3D,某种程度上并不合理。从标称TDP功耗的角度来看,后者默认TDP 120W——从AnandTech去年的实测来看,其实际和日常功耗更低;而前者允许的最大睿频功耗是253W。

抛开架构、工艺之类的细节问题,从粗线条来看,前者是20核28线程的CPU,后者仅8核16线程。所以虽然双方L3 cache资源不对等(33MB vs 96MB),计算资源实际也是不对等的。在游戏之外,很容易想见常见的生产力、渲染、内容创作等测试,7800X3D的性能与14700KF不在一个维度。

但仍然需要注意,从成本的角度来看,现在酷睿i7-14700KF就是比Ryzen 7800X3D要便宜的。虽然可能用不带核显的U来比价格也略失偏颇了,不过此处要表现的仍然是对应成本下,硬件资源的选择和权衡问题。

如文首所述,不知是hybrid bonding成本高,还是终端产品更多受市场因素影响,3D V-cache现阶段可是真的不便宜。单纯为了个别存储敏感型游戏些微提升些帧数,堆LLC真的值得吗?

最后多提一句,本文仅从PC角度来看现阶段的3D V-cache处理器。实际上,我们认为3D V-cache更大的价值在特定负载的数据中心市场——这大概也是最初AMD预设该技术的主场。不过这就是另一个话题了。

Hybrid bonding自然是相当一颗赛艇的技术,必然成为HPC的未来;但在具体实施到PC处理器的3D V-cache上,可能对大部分人而言,现阶段这都是个成本投入有些高、效率与成本效益都并不及预期的技术。

来源于电子工程专辑,作者黄烨锋

半导体工程师半导体行业动态,半导体经验分享,半导体成果交流,半导体信息发布。半导体培训/会议/活动,半导体社群,半导体从业者职业规划,芯片工程师成长历程。238篇原创内容公众号

0 阅读:13

芯片迷不休息

简介:感谢大家的关注