打破高性能计算性能墙、内存墙、互联墙的一种解题思路

硬件是与非 2024-09-30 22:54:51

市场调研机构Hyperion Research最新ISC24市场报告显示,2023年全球HPC市场规模为372亿美元,与2022年基本持平。未来5年,HPC服务器市场的年平均增长率预计为8.2%,存储市场的年平均增长率预计为9.3%,GPU市场的年平均增长率预计为17%,云计算市场的年平均增长率预计为21%。整体HPC市场呈现稳健增长态势。 HPC训练/推理服务器的主流系统架构,主体算力由CPU芯片和AI芯片这两颗芯片提供,但是一个完整的服务器,要能够提供完整的算力,还需要非常多的互联技术,把芯片连接在一起。这里的互联技术包含:AI芯片为了提升算力密度,会采用UCIe把两个Die结合在一起,尽量突破算力瓶颈;内存方面,CPU要经过内存接口,用DDR5做连接,AI芯片需要和HBM3/LPDDR5x做充分内存,以提供足够算力;针对大模型进行运算或进行训练和推理,AI芯片与AI芯片之间,算力卡与算力卡之间,也需要高速接口互联,采用PCIe或Serdes,将所有算力芯片连接起来。 可见未来HPC的技术体系除了算力本身,互联是非常核心的。 通过英伟达过往六七年的产品发展可以看到算力是如何提升的、瓶颈在哪,到2024年的B200,算力提升10-20倍,甚至到百倍的提升,从工艺发展来看,为了提升性能,先进工艺采用是非常简单直接的逻辑,从P100到B200的工艺演进是从16nm一直演进到4nm,但是我们看到工艺演进逐渐接近极限,速度也在放缓。从AI芯片来看,到现在已经接近光罩极限。这个时候Die to Die、RISC-V技术开始导入并发挥作用,直接的体现在英伟达的B200上,这可芯片首次采用互联技术,可以把算力的密度持续往上提升; 从内存的趋势角度,由于带宽逐步进化,从P100到B200,内存提升超过10倍以上。从演进来看,算力提升不仅仅体现在算力单元、算力密度上,还有内存存取,现在的运算模型越来越庞大,存取需要大量带宽做参数存储跟计算,内存逐步演变成非常大的算力瓶颈; 同样的,互联也一样,当前单一计算芯片无法提供足够的算力来支撑如此大的模型运算,需要靠系统型算力,也就需要靠PCIe,将所有算力互联在一起,在过去的七、八年中,总速度、总带宽才得以实现10倍以上的提升。 接下来还能怎样解决算力瓶颈?从上面提到的性能墙、内存墙和互联墙三个维度来考虑,高速接口IP成为一种可能的解题思路,这也是近年来很多IP企业纷纷加大对接口IP的投入的驱动力。 IPNest最新的数据统计显示,2023年,半导体市场整体下滑,但接口IP领域增长了17%。预测数据显示,2024年至2028年接口IP的增长更为强劲,与2020年代的20%增长相当。接口IP类别占所有IP类别的份额已从2017年的18%上升至2023年的28%。这一趋势将在未来10年内进一步扩大,份额将增长到总量的38%。预计大部分增长来自三个类别:PCIe、内存控制器(DDR)以及以太网与D2D,未来5年复合年增长率分别为19%、23%和22%。 我们也看到多家本土IP企业希望把握这一机会点大力发展高速接口IP,但不可否认,HPC高性能计算本身对产品性能、功能以及先进工艺节点的要求都非常之高,以本土IP企业的人才和技术积累想在这一领域有所突破甚至是超越,难度可想而知。

芯耀辉董事长曾克强

“我们HPC类和AI类的客户群成长很快。”近日,在无锡举办的2024中国集成电路设计创新大会暨第四届IC应用展(ICDIA2024)期间,本土IP初创企业芯耀辉董事长曾克强介绍。“针对国产最先进的工艺节点,我们的产品也可以做到明确的领先。同时也在导入国外的主流工艺,这一领域的友商很多,芯耀辉产品线相对会比较全,我们的产品包括DDR5可以做到和国际头部企业同等速率,UCIe相关产品也可以做到24G速率,处于领先。” 从2020年6月创立,到2024年,芯耀辉已经形成了较完整的高速接口IP产品线。“针对性能墙,芯耀辉提供完整的UCIe、XSR,承接D2D的互联,有标准的控制器;针对内存墙,除了HBM、DDR、LPDDR,还提供Memory Compiler,Memory Compiler是内存带宽最高、性能最高的内存存储媒介,在运算过程中,大算力芯片需要超高速带宽内存,来突破算力瓶颈;针对互联墙,经过大量验证,有非常多客户采用芯耀辉的PCIe5/32G Serdes PHY IP,我们的解决方案,面向面积和带宽,在控制部分进行了大量优化,面积节省40%左右,同时也提供下一代的完整PCIe6和112G Serdes解决方案。”曾克强提到。 作为IP提供商,最后往往需要为客户提供更完整的产品组合和解决方案,对此,曾克强表示,“如果要做一个完善的一站式IP厂商,也需要控制器IP,这样给客户提供一整套的解决方案,这样HBM的IP和数字控制器IP都是芯耀辉的,在互相协同兼容性、可靠性上都会做的更好,这也是行业规律。我们做的主要是基于和工艺相关的,以高速接口为核心,上下扩展。包括数字各类接口IP以及数字控制器IP,还有工艺制造端的其他IP,都在我们的考虑当中,但基本上核心是围绕着工艺墙相关的产品来展开。” “综上所述,我们希望通过完整的产品组合,并提供完整的设计、全方位生态、Foundry等完整供应链,可以给客户带来非常完整的解决方案,希望助力客户在芯片设计和产品开发上持续迭代。”曾克强补充。

0 阅读:4

硬件是与非

简介:感谢大家的关注