为了将AI“装进”手机,高通做了哪些努力?

机智猫 2024-03-08 17:21:09

高通最近发布了《通过NPU和异构计算开启终端侧生成式AI》白皮书。

在《白皮书》中,高通针对当前生成式AI需求的发展趋势,以及高通利用NPU和异构计算,开启终端侧的丰富生成式AI用例的新技术进行了解读和分享。

高通认为,随着生成式AI用例需求多样化和计算需求的垂直领域不断增加,需要专为AI定制设计全新计算架构。在这个全新的计算架构中,NPU将扮演至关重要的角色。利用与异构处理器组合,通过能够实现最佳应用性能、能效和电池续航,赋能全新增强的生成式Al体验。

在这方面,高通已经积累了多年。高通的Hexagon NPU经过多年演进,能够模仿最主流模型的神经网络层和运算,比如卷积、全连接层、Transformer 以及主流激活函数,以低功耗实现持续稳定的高性能表现。

第三代骁龙8所搭载的Hexagon NPU 是高通面向生成式Al 最新设计的设计方案。它能够为持续 Al推理带来98%性能提升和40%能效提升。它包括了跨整个 NPU 的微架构升级。微切片推理进一步升级,以支持更高效的生成式Al 处理,并降低内存带宽占用。Hexagon张量加速器增加了独立的电源传输轨道,让需要不同标量、向量和张量处理规模的Al 模型能够实现最高性能和效率。同时,大共享内存的带宽也增加了一倍。基于以上提升和INT4硬件加速。

高通NPU的差异化优势在于系统级解决方案、定制设计和快速创新。高通的系统级解决方案考量每个处理器的架构、SoC系统架构和软件基础设施,由于能够定制设计NPU 并控制指令集架构(ISA),高通架构师能够快速进行设计演进和扩展以解决瓶颈问题。

还是以三代骁龙8所搭载的Hexagon NPU为例,内存带宽是大语言模型 token生成的瓶颈,很多时候其性能表现更受限于内存带宽而非处理能力。在这一代产品上,高通更加专注于提高内存带宽效率。第三代骁龙8支持业界最快的内存配置之一:4.8GHz LPDDR5x,支持77GB/s带宽,能够满足生成式Al用例日益增长的内存需求。

当前生成式Al 工作负载的复杂性、并发性和多样性,需要利用SoC中所有处理器的能力。这需要在众多因素之间进行权衡,针对不同用例的KPI目标可能是功耗、性能、时延或可获取性。OEM厂商在面向跨品类和层级的多种终端开发应用时,需要根据SoC 规格、最终产品功能、开发难易度、成本和应用跨终端层级的适度降级等因素,选择运行Al 模型的最佳处理器。

针对这样的现实需求,高通推出了面向生成式Al的业界领先异构计算架构——高通Al引擎。

高通Al引擎包含多个硬件和软件组件,以加速骁龙和高通平台上的终端侧Al。在集成硬件方面,高通Al引擎具有业界最领先的异构计算架构,包括 Hexagon NPU、Adreno GPU、高通Kryo或高通Oryon CPU、高通传感器中枢和内存子系统,所有硬件都经过精心设计以实现协同工作,在终端侧快速高效地运行Al应用。

高通Al引擎集成的高通传感器中枢是一款极其高效、始终在线的Al 处理器,适用于需要全天候运行的小型神经网络和泛在型应用,比如情境感知和传感器处理,所需电流通常不超过1毫安 (mA) 。第三代骁龙 8中全新升级的高通传感器中枢相比前代性能提升3 .5倍,内存增加30%,并配备两个下一代微型 NPU,能够实现增强的Al 性能。

实际性能表现方面,第三代骁龙8和三款安卓、iOS平台竞品对比。鲁大师AIMark V4.3测试中,第三代骁龙8的总分达到了竞品B的5.7倍、竞品C的7.9倍。安兔兔测试中,第三代骁龙8的总分是竞品B的6.3倍。MLCommon MLPerf推理的不同子项中,比如图像分类、语言理解、超级分辨率等,第三代骁龙8也都保持领先。

与竞品相比,专为持久稳定的高性能 Al 推理而打造的 Hexagon NPU 具有卓越性能、能效和面积效率。高通Al 引擎包括 Hexagon NPU、Adreno GPU、高通 Kryo或高通Oryon CPU、高通传感器中枢和内存子系统,能够支持按需型用例、持续型用例和泛在型用例,为生成式 Al 提供业界领先的异构计算解决方案。通过将技术领导力、定制芯片设计、全栈 Al 优化和生态系统赋能充分结合,高通在推动终端侧生成式Al 开发和应用方面独树一帜。

1 阅读:42

机智猫

简介:好产品会让人幸福的