本篇文章为对Zen 5架构的深度解释,内容可能相对枯燥,如果希望了解产品信息的可以移步“AMD锐龙处理器大成之作:锐龙9000处理器细节解析”,如果对于Zen5架构的深度内容感兴趣的,咱们继续接着看。
AMD用“Huge leap”来形容Zen 5架构,意为Zen 5架构在历代Zen架构中的性能提升和架构进步也是可圈可点的。
Zen 5架构的改良有几个要素构成,其中包括:
全新的前端设计,更宽的执行窗口和重新设计的指令提取、译码、分发单元全新的前端设计让Zen5架构可以在每个时钟周期执行更多指令因为每个时钟周期可以执行更多指令,所以微操缓存和寄存器带宽也对应增大Zen 5架构有了完整的512-bit FPU执行模块,以提高运行AVX512/VNNI指令大语言模型的AI效率。首先是前端部分,每一代Zen架构的前端部分都会改良分支预测结构,这代也不例外。AMD表示Zen5提高了分支预测的精确度和吞吐量以及降低延迟,并增大了指令缓存带宽优化了延迟,但没有具体提到是如何实现的。从目前已知信息看,Zen 5主要是继续提高流水线的微操缓存页目(BTB)以及增宽译码(Decode,4instructions x 2/cycle)、分发单元(Dispatch,8ops-wide)和微操缓存(Op Cache,12op/cycle)的操作指令数。
Zen 5的流水线有一个很关键的数字是“8”,比如译码(Decode)和分发单元(Dispatch)都是8-wide/cycle,而INT Rename(重命名寄存器)现在也是8-wide/cycle,这保持了流水线增宽的统一效率,与其相关的是Reorder Buffer(ROB重排序缓冲区)从原来的320个条目指令提高到了448个条目指令,提高了40%。增宽的流水线,让Zen5架构可以设计更多的ALU(算术逻辑单元)以及采用全新的unified ALU scheduler(统一调度器)。不要小看这两项设计的改变,这实际上是处理器非常重要的一环。首先是unified ALU scheduler(统一调度器)。AMD过去一直是以分布式调度器为主,即每个调度器会分别对接单独的执行端口,这样简化了流水线的流程避免指令回退的浪费,但效率比较难提上去。统一调度器就能让一个调度器服务多个执行端口,可以更好的应对某个执行端口激增的指令条目。因为调度器效率提高,所以AMD也能设计更多ALU(算术逻辑单元),进而提高其运算吞吐量(理论上能提高50%)。
存取单元应该算每代必增大的一环,Zen5从Zen4的8路32KB D-Cache提高到12路48KB D-Cache,指令操作数也从每周期3 load/2 store提高到4 load/2 store,更大的存取队列和更大的D-TLB页目数一定程度上降低了缓存Miss的概率。
最后是浮点执行单元,其实Zen 4架构也支持AVX 512 浮点运算,但它是通过2个256-bit FPU合并运算来实现,而Zen 5则是拥有完整的512-bit FPU以及与其位宽匹配的流水线管道。我们应该能在Zen 5上看到支持AVX 512指令的运算获得性能激增,网上传闻这个数字是40%。AMD在Zen 5上花费大量核心面积来提升AVX 512的性能,主要是一些AI大语言模型能够使用AVX512/VNNI指令,也是为AI路线强化产品竞争力。
结合以上这些架构改良,Zen 5架构的IPC性能相较Zen 4有了16%的平均增长,其中超过半数由前端设计的改良贡献。
Zen 5架构延伸至AMD的各项产品中,包括桌面平台、移动平台、服务器等等,并采用了先进制程拓展到更多产品中。值得一提的是,Zen 5和Zen 5c架构也广泛使用在这代锐龙处理器中,不过并不是桌面平台,而是移动平台:锐龙AI 300系列处理器。