据 BusinessWire 报道,JEDEC 已发布 GDDR7 内存标准规范。下一代内存将用于显卡,AMD、美光、Nvidia、三星和SK海力士都参与了此事。我们预计 GDDR7 将成为高端 RDNA 4 和 Blackwell GPU 的首选内存,据传它们将于明年推出,并在我们的最佳显卡排行榜上争夺一席之地。
自第一款显卡开始支持 GDDR6 内存以来,已经过去了近六年的时间。这就是 Nvidia 于 2018 年 9 月推出的 RTX 20 系列图灵架构。首款采用 GDDR6 的RTX 2080和RTX 2080 Ti GPU 的内存时钟频率为 14 Gbps (14 GT/s),每台设备可提供 56 GB/s 的速度。后来的解决方案(例如 AMD 的RX 7900 XTX)的时钟速度高达 20 Gbps,速度为 80 GB/s。
Nvidia 帮助创建了更快的 GDDR6X 替代方案,在RTX 3080中的速度为 19 Gbps,最终在最新的RTX 4080 Super中高达 23 Gbps 。按照官方说法,美光 GDDR6X 芯片的速率高达 24 Gbps,每台设备的速率可达 96 GB/s。
GDDR7 将大幅增加带宽。JEDEC 的规格最终将达到每台设备 192 GB/s。计算得出,内存速度为 48 Gbps,是最快 GDDR6X 的两倍。然而,它达到该速度的方式与之前的内存解决方案不同。
GDDR7 将使用三个级别的信令(-1、0、+1)每两个周期传输三位数据。这是 GDDR6 中使用的 NRZ(不归零)信号的变化,GDDR6 在两个周期内传输两位。仅这一变化就使数据传输效率提高了 50%,这意味着基础时钟不必是 GDDR6 的两倍。
其他变化包括使用独立于核心的线性反馈移位寄存器训练模式来提高准确性并减少训练时间。GDDR7 的独立通道数量将增加一倍(GDDR6 为 4 个,而 GDDR6 为 2 个),并且将使用 PAM3 信令。
这些都不是新信息,三星去年 7 月透露了许多关键的 GDDR7 细节。然而,JEDEC 标准的发布标志着一个重要的里程碑,并表明 GDDR7 解决方案的公开可用性和使用迫在眉睫(相对而言)。
Nvidia 的下一代 Blackwell 架构预计在推出时将使用 GDDR7。我们可能会在 2024 年末推出 Blackwell 的数据中心版本,但它将使用 HBM3E 内存而不是 GDDR7。消费级产品很可能会在 2025 年初上市,并且像往常一样,这些部件将会有专业版和数据中心版。AMD 也在开发 RDNA 4,我们预计它也将使用 GDDR7——不过,如果两家公司的低端部件出于成本原因仍然选择坚持使用 GDDR6,也不要感到惊讶。
无论哪种情况,AMD 或 Nvidia 在最高速度下使用 GDDR7 都可能使用当今最宽的 384 位接口提供高达 2,304 GB/s 的带宽。我们真的会看到这样的带宽吗?也许不是,例如 Nvidia 的 RTX 40 系列 GPU(配备 GDDR6X)都使用略低于最大时钟的时钟。尽管如此,我们仍然可以轻松地看到即将推出的架构的带宽翻倍。
这些什么时候才能真正到达?我们不排除在 2024 年末推出的可能性。Nvidia 的 RTX 30 系列于 2020 年秋季推出,RTX 40 系列于 2022 年秋季推出。AMD 的 RX 6000 系列同样于 2020 年底推出,RX 7000 系列于 2022 年底推出。如果保持同样的两年节奏,我们可以在年底前看到 GDDR7 显卡。但不要抱太大希望,因为我们仍然认为 2025 年初的可能性更大。
JEDEC 发布 GDDR7 图形内存标准
微电子行业标准制定的全球领导者JEDEC固态技术协会很高兴地宣布发布JESD239图形双倍数据速率(GDDR7) SGRAM。JESD239 GDDR7 提供的带宽是 GDDR6 的两倍,每台设备的带宽高达 192 GB/s,可满足图形、游戏、计算、网络和 AI 应用中对更多内存带宽不断增长的需求。
JESD239 GDDR7 是首款使用脉冲幅度调制 (PAM) 接口进行高频操作的 JEDEC 标准 DRAM。其 PAM3 接口提高了高频操作的信噪比 (SNR),同时提高了能效。通过使用 3 个级别(+1、0、-1)在 2 个周期内传输 3 位,而不是传统的 NRZ(不归零)接口在 2 个周期内传输 2 位,PAM3 提供了更高的数据传输速率。循环,从而提高性能。
其他高级功能包括:
具有眼图掩蔽和错误计数器的核心独立 LFSR(线性反馈移位寄存器)训练模式可提高训练准确性,同时减少训练时间;独立通道数量翻倍,从 GDDR6 中的 2 个增加到 GDDR7 中的 4 个;支持 16 Gbit 至 32 Gbit 密度,包括支持 2 通道模式以使系统容量加倍;通过整合最新的数据完整性功能,包括带实时报告的片上 ECC (ODECC)、数据中毒、错误检查和清理以及带命令阻塞的命令地址奇偶校验 (CAPARBLK),满足 RAS(可靠性、可用性、可维护性)的市场需求;JEDEC 董事会主席 Mian Quddus 表示:“JESD239 GDDR7 标志着高速内存设计的重大进步。“随着向 PAM3 信号的转变,内存行业有了一条新的途径来扩展 GDDR 设备的性能并推动图形和各种高性能应用的不断发展。”
“GDDR7 是首款不仅专注于带宽,而且通过整合最新的数据完整性功能来满足 RAS 市场需求的 GDDR,这些功能使 GDDR 设备能够更好地服务云游戏和计算等现有市场,并扩展到 AI、 JEDEC GDDR 小组委员会主席 Michael Litt 说道。
AMD 计算 和图形首席技术官兼企业研究员 Joe Macri 表示:“今天推出的突破性 GDDR7 内存标准代表着释放下一代消费、游戏、商业和企业设备潜力的关键一步。” “通过利用 GDDR7 的变革力量,我们可以共同开启变革计算和图形可能性的新时代,为创新和发现塑造的未来铺平道路。”
“美光在通过 JEDEC 定义图形 DRAM 标准方面有着悠久的历史,并且在与我们的合作伙伴和客户一起推动 GDDR7 标准化活动方面发挥了关键作用,”美光计算和网络部门的首席架构师兼杰出技术人员 Frank Ross 说道。业务单位。“利用多级信令的 GDDR 产品的开发有助于确定满足未来不断增长的系统带宽需求的途径。通过添加领先的 RAS 功能,GDDR7 标准可满足远远超出传统图形市场的工作负载要求。”
NVIDIA GPU 产品管理副总裁 Kaustubh Sanghani 表示:“ NVIDIA很高兴我们与 JEDEC 的合作帮助 PAM 信号成为 GDDR7 的基础技术,帮助客户充分发挥 GPU 的性能。”
三星 执行副总裁兼内存产品规划主管 YongCheol Bae 表示:“人工智能、高性能计算和高端游戏需要高性能内存来以前所未有的速度处理数据。” “GDDR7 32Gbps 将实现 1.6 倍的性能提升,同时具有最高的可靠性和成本效益。”
“随着每一代图形内存的出现,业界始终致力于实现同时确保最高速度和提高能效的宏伟目标。SK海力士很荣幸能够作为JEDEC成员参与GDDR7标准工作,并很高兴能够为客户提供最高速度和出色功效的内存。再次实现标准工作将成为业界扩展内存生态系统的新机遇。”SK海力士产品规划副总裁Sang Kwon Lee表示。
GDDR7 更多技术细节曝光:
36Gbps与PAM 3编码
当三星前年10月嘲笑GDDR7 内存的持续开发时, Cadence 没有透露即将推出的规范的任何其他技术细节。但他们最近透露了有关该技术的一些额外细节。事实证明,GDDR7 内存将使用 PAM3 和 NRZ 信号,并将支持许多其他功能,目标是达到每个引脚高达 36 Gbps 的数据速率。
简短的 GDDR 历史课
在较高的层面上,近年来 GDDR 内存的发展相当简单:更新的内存迭代提高了信号速率,增加了突发大小(burst size)以跟上这些信号速率,并提高了通道利用率。但是这些都没有显着增加存储单元的内部时钟。例如,GDDR5X 和后来的 GDDR6 将其突发大小增加到 16 字节,然后切换到双通道 32 字节访问粒度。虽然每一代技术都面临着挑战,但最终行业参与者已经能够通过每个版本的 GDDR 提高内存总线的频率,以保持性能的提升。
但即使是“简单”的频率增加也越来越变得不那么简单了。这促使该行业寻找除了加快时钟之外的解决方案。
借助 GDDR6X,美光和 NVIDIA 将传统的不归零 (NRZ/PAM2) 编码替换为四级脉冲幅度调制 (PAM4) 编码。PAM4 使用四个信号电平将有效数据传输速率提高到每个周期两个数据位,从而实现更高的数据传输速率。实际上,由于 GDDR6X 在 PAM4 模式下运行时具有 8 字节 (BL8) 的突发长度(burst length),因此在相同数据速率(或者更确切地说,信号速率)下它并不比 GDDR6 快,而是设计为能够达到比 GDDR6 可以轻松实现的更高的数据速率。
四级脉冲幅度调制在信号丢失方面优于 NRZ。对于给定的数据速率,由于 PAM4 需要 NRZ 信号传输波特率的一半,因此产生的信号损失显着减少。随着更高频率的信号在通过导线/走线时衰减得更快——而且按照数字逻辑标准,内存走线的距离相对较长——能够在本质上是较低频率的总线上运行,最终使一些工程和走线更容易实现更高的数据速率。
权衡(trade-off )是 PAM4 信号通常对随机和感应噪声更敏感;为了换取较低频率的信号,您必须能够正确识别两倍的状态。实际上,这会导致给定频率下的误码率更高。为了降低BER,需要在Rx端进行均衡,在Tx端进行预补偿,这会增加功耗。虽然它未用于 GDDR6X 内存,但在更高频率(例如 PCIe 6.0)下,前向纠错 (FEC) 也是一项实际要求。
当然,GDDR6X 内存子系统需要全新的内存控制器,以及用于处理器和内存芯片的全新物理接口 (PHY)。这些复杂的实现在很大程度上是四级编码直到最近才几乎完全用于高端数据中心网络的主要原因,在这些网络中有支持使用这种尖端技术的利润。
GDDR7:PAM3 编码高达 36 Gbps/pin
考虑到上述在使用 PAM4 信号或 NRZ 信号时的权衡,事实证明支持 GDDR7 内存标准的 JEDEC 成员反而采取了一些折衷的立场。GDDR7 内存设置为使用 PAM3 编码进行高速传输,而不是使用 PAM4。
顾名思义,PAM3 介于 NRZ/PAM2 和 PAM4 之间,使用三级脉冲幅度调制(-1、0、+1)信号,允许它每个周期传输 1.5 位(或者更确切地说是 3 位以上)两个周期)。PAM3 提供比 NRZ 更高的每周期数据传输速率——减少了迁移到更高内存总线频率的需要以及由此带来的信号丢失挑战——同时需要比 PAM4 更宽松的信噪比。总的来说,GDDR7 承诺比 GDDR6 具有更高的性能,同时比 GDDR6X 具有更低的功耗和实施成本。
对于那些记分的人来说,这实际上是我们看到的第二个使用 PAM3 的主要消费技术。出于类似的技术原因,USB4 v2(又名 80Gbps USB)也在使用 PAM3。那么 PAM3 到底是什么?
PAM3 是一种数据线可以承载 -1、0 或 +1 的技术。该系统所做的实际上是将两个 PAM3 传输组合成一个 3 位数据信号,例如 000 是一个 -1 后跟一个 -1。这变得很复杂,所以这里有一个表格:
当我们将 NRZ 与 PAM3 和 PAM4 进行比较时,我们可以看到 PAM3 的数据传输速率处于 NRZ 和 PAM4 的中间。在这种情况下使用 PAM3 的原因是为了在没有 PAM4 需要启用的额外限制的情况下实现更高的带宽。
话虽如此,三星承诺的具有 36 Gbps 数据传输速率的 256 位内存子系统将使用多少功率还有待观察。GDDR7 规范本身尚未获得批准,硬件本身仍在构建中(这正是 Cadence 等工具发挥作用的地方)。但请记住,AI、HPC 和图形的带宽需求量很大,带宽将永远受到欢迎。
优化效率和功耗
除了提高吞吐量外,GDDR7 有望采用多种方式来优化内存效率和功耗。特别是,GDDR7 将支持四种不同的读取时钟 (RCK) 模式,以便仅在需要时启用它:
始终运行:始终运行并在睡眠模式下停止;
禁用:停止运行;
Start with RCK Start command:主机可以在读出数据之前通过发出RCK Start命令来启动RCK,并在需要时使用RCK Stop命令停止。
Start with Read:当 DRAM 收到任何涉及读出数据的命令时,RCK 自动开始运行。它可以使用 RCK Stop 命令停止。
此外,GDDR7 内存子系统将能够并行发出两个独立的命令。例如,Bank X 可以通过在 CA[2:0] 上发出 Refresh per bank 命令来刷新,而 Bank Y 可以通过同时在 CA[4:3] 上发出读取命令来读取。此外,GDDR7 将支持线性反馈移位寄存器 (LFSR) 数据训练模式,以确定适当的电压电平和时序,以确保一致的数据传输。在这种模式下,主机将跟踪每个单独的眼睛(连接),这将允许它应用适当的电压以更好地优化功耗。
最后,GDDR7 将能够根据带宽需求在 PAM3 编码和 NRZ 编码之间切换。在高带宽场景中,将使用 PAM3,而在低带宽场景中,内存和内存控制器可以切换到更节能的 NRZ。
虽然 GDDR7 承诺在不大幅增加功耗的情况下显着提高性能,但技术观众最大的问题可能是 新型内存何时可用。由于没有来自 JEDEC 的硬性承诺,因此没有预计 GDDR7 发布的具体时间表。但考虑到所涉及的工作和 Cadence 验证系统的发布,预计 GDDR7 将与 AMD 和 NVIDIA 的下一代 GPU 一起进入现场并不是没有道理的。请记住,这两家公司倾向于以大约两年的节奏推出新的 GPU 架构,这意味着我们将在 2024 年晚些时候开始看到 GDDR7 出现在设备上。
当然,鉴于如今有如此多的 AI 和 HPC 公司致力于带宽需求高的产品,其中一两家可能会更快发布依赖 GDDR7 显存的解决方案。但 GDDR7 的大规模采用几乎肯定会与 AMD 和 NVIDIA 的下一代图形卡的量产同时发生。