芯片PPA当前还有意义吗?

袁遗说科技 2024-09-16 05:22:33

本文由半导体产业纵横(ID:ICVIEWS)编译自semiconductor

几十年来,功率、性能和面积/成本一直是三大优化目标,但它们与当今的复杂系统是否相关?

自电子设计自动化(EDA)诞生以来,功率、性能和面积/成本(PPA)的优化一直是芯片设计的核心,但这些指标在缺乏芯片使用方式和环境的背景下,其价值正逐渐减弱。

与过去不同,现在的背景更多来源于硬件开发之外的因素。尽管PPA在硬件开发流程的许多部分仍然是一个有用的代理指标,但其各个组成部分的相关性已不如从前。

多年来,人们还增加了其他关注点,特别是能源和热管理。这些指标都是相互关联的,无法将它们视为单独的优化轴。因此,像每瓦性能或每操作焦耳这样的综合指标可能更有意义。其他重要因素还包括可持续吞吐量和操作延迟。

随着领域特定解决方案的激增,环境变得越来越重要。这种环境可以来自两个不同领域——系统和软件。尽管在将硬件和软件的开发与分析相结合,最近又将硬件和系统结合起来,但这些联系仍然很薄弱。尽管如此,未来的设计必须将它们联系起来。

当系统、软件和硬件三者都考虑在内时,全局优化才成为可能,但这越来越被视为一种奢侈,因为软件在人工智能等领域的发展非常迅速。系统只能针对当前已知的信息进行优化。如果对未来做出错误的预测,那么任何未雨绸缪的举措都可能是适得其反的。

创建有效的工作流程对于成功至关重要。“硬件工程师认为他们已经有了很好的方法,”西门子EDA公司网络电子系统工程计划解决方案架构师艾哈迈德·哈姆扎(Ahmed Hamza)表示,“他们认为不需要系统工程师。他们从系统工程师那里得到了一些要求,这些要求被抛在一边(见图 1)。接着,他们就开始竞相构建。问题是,他们构建了完美的硬件,但一旦在上面运行软件,一切就都崩溃了。然后就开始互相指责。”

图 1:团队之间的差距造成沟通问题。来源:西门子 EDA

错综复杂的网络

在早期,芯片设计是一场性能竞赛。“尽管这是一场跨学科的竞赛,但典型代表是CPU千兆赫兹竞赛,”Cadence公司战略与新业务部总监罗布·诺思(Rob Knoth)表示,“随着移动计算的兴起,它催生了一整套新的EDA技术和设计方法,这些方法关注低功耗和能量管理。这需要多学科的方法。这很难。你需要让更多的人参与进来。为了准确测量功耗,你必须讨论活动、必须考虑权衡和妥协,你必须考虑最佳的整体电路。”

多年来,其他因素也变得越来越重要。“性能仍然需要可衡量,而面积则直接与硅片的成本相关,”Arteris公司产品管理和营销副总裁安迪·奈丁盖尔(Andy Nightingale)表示,“传统价值仍然非常重要,但当你将它们与热管理(与功率密度相关)相结合时,它会影响设备的运行方式。如果设备过热,它会断电,性能和能耗都会下降。”

每个节点都会增加更多因素。“设计收敛的目标是基于用户提供的某些条件或输入,跨多个变量进行优化,”Synopsys公司产品管理高级总监马诺杰·查科(Manoj Chacko)表示,“除了PPA之外,现在还有R,代表可靠性或稳健性。这是从我们必须考虑IR压降开始的,因为它影响了性能。后来开发了缓解IR压降的技术。接着我们看到了可变性——设备的可变性,以及设备行为基于邻居和环境而发生的变化——这影响了设计的性能和功耗。”

所有这些影响都是相互关联的。“如果你能分散活动,你就能降低峰值功耗,”Innergy Systems公司创始人兼首席执行官尼纳德·休伊戈尔(Ninad Huilgol)表示,“在确定电源尺寸、电源网格以及从系统级角度的IR压降时,这是一个重要的考虑因素。分散活动可以通过在活动流中引入空闲周期或动态更改时钟频率来实现。这样做的结果是性能会降低,但影响热管理的平均功耗会增加。”

时间因素正在被延长。“对于持续工作负载场景(如长时间游戏或4K视频录制),热管理至关重要,”Arm客户业务线产品管理高级总监金贾尔·戴夫(Kinjal Dave)表示,“如果设备在游戏过程中过热,用户体验会恶化,因为它无法持续保持高速运行。这会导致限流,从而降低帧率,削弱游戏体验。对于持续功耗分析,重要的是要确定某些工作负载可以维持多长时间,例如长时间游戏而不降低性能。”

为了理解这些影响,必须将更多物理学知识纳入分析。“随着3D-IC的出现,将芯片和系统更加紧密地结合在一起,我们需要关注之前芯片设计领域未曾关注的新物理学知识,”Ansys公司产品管理总监普里蒂·古普塔(Preeti Gupta)表示,“我们正在看到边界条件交换方面更加复杂。例如,电迁移分析关注的是电流密度。电流与温度有直接关系。随着温度的升高,泄漏会呈指数级增加。”

这给优化工具带来了更大的压力。“无论是时序分析、IR分析、功耗分析、变异性分析还是稳健性分析,与签核的集成都非常重要,”Synopsys的Chacko表示。“当优化工具与分析紧密集成时,我们就拥有了集成流程,如时序集成、IR集成、功耗集成、可变性集成。。我们以自动化的方式调用这些分析引擎。优化不是简单地根据最初的一个数据点来进行。”

优化意味着尽可能接近极限。“如果你使用导线段的实际温度,你可以得到一个更加稳健、优化的设计,”Ansys的Gupta表示。“我特意用了稳健和优化这两个词,因为有时设计团队可能设计出的最坏温度条件会低于设备实际可能遇到的最坏温度。其次,你可能在很大程度上进行了过度设计,其中大多数实例并不会达到最坏温度条件,只有少数会。你在这方面的过度设计上牺牲了很多功耗、性能和面积。”

这就是为什么人工智能(AI)越来越多地被用于帮助平衡这些因素。“设计师可以尝试多种不同的优化方案,”Synopsys的高级产品经理Jim Schultz表示。“在许多情况下,他们依赖于有经验的资深设计师。他们知道要尝试什么。但AI驱动的工具拥有所有这些可用参数。它们可以尝试多个参数,并查看哪些参数能带来最佳结果。它们可以探索更大的解决方案空间。”

虽然工程师可能正在尝试进行精细优化,但由于无法进行分析,导致了更大的裕量和性能损失。“这始终是电子设计自动化(EDA)设计的核心难题,”Ansys产品营销总监Marc Swinnen表示。“你需要在设计流程的早期就知道未来的信息来进行优化,所以问题一直在于如何估算和使用更简单的分层模型,随着时间的推移进行改进并尽量减少迭代次数。”

就像这些低层次因素紧密相关一样,在更高层次上也存在类似的情况。如今很少有系统被设计成在任何时候都只执行单一功能。这使得很难隔离系统级事件并应用度量标准。“系统级的功耗测量可以通过测量宏观事件消耗的功耗或能量来进行,”Innergy的Huilgul表示。“这些是系统级事件,如软件或固件中子例程的执行。经过特征化的系统级功耗模型可以帮助在这一层级估计功耗。这些模型可以使用耗时较长的系统级事件来表征,以微秒或毫秒为单位。”

新的度量标准

虽然低层次优化仍然很重要,但系统级度量标准正在变得越来越重要。“这既有业务方面的考虑,也有工程方面的考虑,”Expedera的市场营销副总裁Paul Karazuba表示。“从业务角度来看,要理解客户最重要的需求是什么。然后,从技术角度来看,要理解在客户的这些目标和边界条件下,哪些事情是合理可行的。”

这些目标必须以一种有意义的方式被捕获。“在现代系统的背景下,除了基准测试外,还必须从特定用例的角度来评估功耗、性能和面积(PPA),”Arm的Dave表示。“对于生成式人工智能(GenAI)工作负载,可以测量首次令牌时间(Time to First Token)或每秒令牌数(Tokens per Second)等度量标准,以评估持续工作负载。对于游戏,系统基准测试可能涉及每秒帧数(Frames per Second)或每瓦特帧数(Frames per Watt),这些度量标准可以最好地衡量功耗效率和性能。安全应用可能会关注每个新安全功能的性能成本,强调在性能和硅成本之外尽量减少这一成本。”

要达到这一水平,需要以系统为中心。“对于人工智能来说,硬件往往由数百或数千个小型内核组成,”Huilgul表示。“在人工智能硬件上运行的软件往往很复杂。它要求学习新的做事方式。随着软件的不断变化,你的功耗是否仍然符合最初的目标?这是一个新的重要挑战。可以通过构建系统的高级功耗模型来解决这一问题,这些模型可以显示软件运行时的动态功耗。”

对于某些任务,内部度量标准驱动着操作。“导线长度至关重要,”Arteris的Nightingale表示。“因为它影响着功耗、信号延迟、面积和可靠性。这与EDP(能量延迟积)有关,EDP是一种能量度量,结合了能量和延迟。某样东西完成一项工作需要多长时间,以及它在完成这项工作时消耗了多少能量?你可能从某样东西上获得相同的EDP,这东西要么速度非常快但消耗大量功率,要么非常慢但在能量使用上非常高效。出现了一个新的术语,叫做加速、提效和绿色化,这些度量标准被添加到其中。它们变得越来越重要,用于评估平衡,因为系统的性能、功耗效率和环境影响都在发挥作用。”

越来越多的声音正在加入讨论。“对于电气工程、半导体、电子系统而言,我们的工作只会随着参与讨论的声音的多样化而变得越来越好,”Cadence的Knoth表示。“我们正在生产更高质量的系统和电路,因为设计半导体的不再仅仅是电气工程师。还有机械工程师、软件工程师、功能验证人员、用例设计师以及真正关心产品整个生命周期的人。这关乎于如何改进工具,以便这些其他声音能够为讨论做出贡献。”

但是,将电子设计自动化(EDA)、系统和软件整合在一起也伴随着一些问题。“如果你进入系统工程领域,他们会使用以图表为中心的工具,”西门子公司的哈姆扎表示。“这些工具是为人机交互设计的。而在EDA方面,他们使用以数据为中心的工具,可以生成模型、开发用例并进行分析。当前工具的问题是,系统工具无法产生足够精确和确定的模型以供EDA使用。我们需要为系统发明新的工具。”

这些团队之间需要进行模型和信息的交换。“我们看到系统层面的人员需要芯片热模型,以便在系统层面环境中,结合气流和水冷进行运行,”安世亚太公司的古普塔说。“我们有人要求芯片功率模型和电源完整性模型。你在进行封装设计时,需要芯片的功率模型来进行系统级别的电源完整性设计。但是,这种建模需要以更标准化的方式来进行信息沟通,无论是热、功率、信号信息还是时序。”

不过,进展正在取得。“即将出台一项新标准——SysML-v2,它将为系统领域提供以数据为中心的模型,”哈姆扎表示。“现在,当你构建模型时,它们可以与EDA流程相连接。另一个缺失的元素是,从系统到EDA级别的要求没有全部关联起来。验证需要与系统全面关联,因为如果我们对某个内容进行验证并发现问题,系统工程师却不清楚发生了什么。关于验证的知识需要全面回溯到系统层面,以便他们能够理解何时出现问题或性能不佳。他们可以进行调整,但需要沟通。我们正在多个方面努力,以将EDA领域与系统领域连接起来。”

结论

我们衡量系统质量的方式正在发生变化。它不再能由几个数字来定义,因为这些数字只在特定环境中才有意义。该环境同时涉及软件和系统。

每个新节点都在增加为设计找到正确优化空间的复杂性,虽然人工智能可能有助于在单元格或块内找到局部最小值,但真正的挑战在于高度抽象层面,即做出架构选择。在能够由工具自动处理之前,需要更多的模型。

*声明:本文系原作者创作。文章内容系其个人观点,我方转载仅为分享与讨论,不代表我方赞成或认同,如有异议,请联系后台。

0 阅读:18

袁遗说科技

简介:感谢大家的关注