
本文由半导体产业纵横(ID:ICVIEWS)综合
该存算一体宏芯片在28nm CMOS工艺下流片,可支持BF16、FP8浮点精度运算以及INT8、INT4定点精度运算。
当前,边缘智能计算设备部署神经网络时,往往需要通过训练微调以提升网络精度。但基于远程云端训练的方法存在高延迟、高功耗以及存在隐私泄露风险等缺点,因此,实现支持本地训练的存算一体技术至关重要。
存算一体(Computing-in-Memory, CIM)技术是一种革命性的计算架构,通过将计算和存储功能集成在同一芯片中,解决了传统冯・诺依曼架构中的 “内存墙” 问题。随着人工智能、边缘计算和数据中心等领域的快速发展,存算一体技术因其高效能、低功耗的特点,成为未来计算架构的重要方向
传统的存算一体宏仅支持网络推理,无法进行网络训练所需要的转置运算。现有方案无法对训练中的前向与反向传播过程中的乘累加电路进行有效的复用,造成了功耗和面积上的浪费,且仅支持定点数制的模拟存算方案,在精度上也存在较大的缺陷。如何有效实现支持转置操作的高能效、高精度的存算一体宏,是当前存算一体领域亟须解决的问题。
针对以上问题,集成电路制造技术全国重点实验室张锋研究员团队设计出可转置的近似精确双模浮点存算一体宏芯片。
通过提出的循环权重映射SRAM方案,芯片可在前向与反向传播时复用乘加单元,在实现了转置功能的同时,相对之前的转置存算一体宏单元大大提升了能效与算力密度。
通过提出的有符号定点尾数编码方式与向量粒度预对齐方案,芯片实现了多种浮点、定点数制的兼容支持,相较于传统的粗粒度浮点预对齐方案有着更小的精度损失。
通过提出的近似精确双模的乘加电路设计,芯片可在精度要求低的推理环节时开启近似模式,从而获得12%的速度提升与45%的能耗降低,可在精度要求高的训练环节时开启精确模式确保没有精度损失。
该存算一体宏芯片在28nm CMOS工艺下流片,可支持BF16、FP8浮点精度运算以及INT8、INT4定点精度运算。BF16浮点矩阵-矩阵-向量计算均值能效达到48TFLOP/W,峰值能效达到100TFLOPS/W;FP8浮点矩阵-矩阵-向量计算均值能效达到192.3TFLOP/W,峰值能效达到400TFLOPS/W。这一研究结果为应用于边缘端训练的存算一体架构芯片提供了新思路。
上述工作以“A 28nm 192.3TFLOPS/W Accurate/Approximate Dual-mode Transpose Digital 6T-SRAM Compute-in-Memory Macro for Floating-Point Edge Training and Inference”为题入选 ISSCC 2025。微电子所博士生袁易扬为第一作者,张锋研究员与北京理工大学李潇然助理教授为通讯作者。该研究成果得到了科技部重点研发计划、国家自然科学基金、中国科学院战略先导专项等项目的支持。

图1. 28nm基于外积的数模混合浮点存算一体宏芯片:(a)芯片显微镜照片,(b)芯片特性总结表。
存算一体芯片的适用场景中早期的存算一体芯片算力较小,从小算力1TOPS开始往上走,解决的是音频类、健康类及低功耗视觉终端侧应用场景,AI落地的芯片性能及功耗问题。比如:AIoT的应用。众所周知,碎片化的AIoT市场对先进工艺芯片的需求并不强烈,反而更青睐低成本、低功耗、易开发的芯片。存算一体正是符合这一系列要求的芯片。
首先,存算一体技术能够减少数据在存储单元和计算单元之间的移动,从而显著降低能耗。例如,传统架构中,大量的数据传输会消耗大量能量,而存算一体架构可以避免这种不必要的能耗,使得像电池供电的物联网设备能够更长时间地运行。
其次,通过减少数据传输和提高集成度,存算一体技术可以降低芯片的制造成本。对于大规模部署的 AIoT 设备来说,成本的降低有助于更广泛的应用推广。
最后,存算一体芯片还可以大幅提高运算速度并节省空间,而这两项也是给AIoT应用带来助力的两大因素。
目前云计算算力市场,GPU的单一架构已经不能适应不同AI计算场景的算法离散化特点,如在图像、推荐、NLP领域有各自的主流算法架构。随着存算一体芯片算力不断提升,使用范围逐渐扩展到大算力应用领域。针对大算力场景>100TOPS,在无人车、泛机器人、智能驾驶,云计算领域提供高性能大算力和高性价比的产品。此外,存算一体芯片还有一些其他延伸应用,比如感存算一体、类脑计算等。
*声明:本文系原作者创作。文章内容系其个人观点,我方转载仅为分享与讨论,不代表我方赞成或认同,如有异议,请联系后台。
想要获取半导体产业的前沿洞见、技术速递、趋势解析,关注我们!