
芝能智芯出品
Arm 近日发布了全球首款基于 Armv9 架构的边缘 AI 平台,将物联网(IoT)和边缘计算推向了全新高度,集成了全新的 Cortex-A320 CPU 和 Ethos-U85 NPU,专为物联网应用优化,能够在边缘设备上高效运行超过 10 亿参数 的 AI 模型。
相较于前代技术,Cortex-A320 的机器学习性能提升了 10 倍,Ethos-U85 的性能则提升了 8 倍,为工业自动化、智能相机等场景带来了前所未有的计算能力。
Arm 通过 Arm Kleidi for IoT 扩展了软件生态系统,性能提升高达 70%,并支持全球超过 2000 万开发者 与主流 AI 框架无缝集成。
Arm 高级副总裁 Paul Williamson 所言:“人工智能的未来将转向边缘,而这一平台将成为物联网创新的催化剂。”
通过将高效硬件与强大软件生态相结合,Arm 正在引领边缘 AI 迈向更智能、更安全、更高效的新时代,为全球开发者开启了无限可能。

Part 1
Armv9 边缘 AI 平台:
技术革新的基石
Armv9 边缘 AI 平台的发布,是对边缘计算范式的重新定义。通过集成 Cortex-A320 CPU 和 Ethos-U85 NPU,并依托 Armv9 架构的先进特性,这一平台为物联网设备带来了高性能、低功耗和强安全性的组合。
● Cortex-A320 CPU:物联网优化的性能引擎
Cortex-A320 是全球首款针对物联网优化的 Armv9 CPU,其设计目标是为边缘设备提供卓越的计算能力,同时保持超低功耗。
相比前代 Cortex-A35,Cortex-A320 在机器学习(ML)性能上实现了 10 倍提升,标量性能提升 30%,源于 Armv9 架构中引入的 SVE2(Scalable Vector Extension 2)技术。
SVE2 是一种先进的向量扩展技术,专为 AI 和数字信号处理(DSP)任务优化。它支持灵活的向量长度和高效的并行计算,使 Cortex-A320 能够处理复杂的 AI 工作负载,例如卷积神经网络(CNN)和Transformer网络。
Cortex-A320 在微架构层面进行了深度优化,显著降低了功耗和芯片面积,对于电池供电的物联网设备尤为重要,例如智能传感器或便携式监控设备。支持多核配置的 Cortex-A320 允许开发者根据应用需求调整性能与功耗的平衡,适用于从低功耗传感器到高性能边缘网关的多样化场景。
Cortex-A320 的推出将 Armv9 架构的高效特性带入物联网市场,为下一代智能设备奠定了坚实基础。

● Ethos-U85 NPU:边缘 AI 的加速核心
与 Cortex-A320 搭配的 Ethos-U85 NPU 是 Arm 专为边缘 AI 设计的神经网络处理器,其性能较前代提升了 8 倍,能够支持超过 10 亿参数 的 AI 模型。
这一能力使得边缘设备能够运行复杂的深度学习模型,例如用于自然语言处理或图像识别的Transformer网络。
Ethos-U85 针对Transformer模型进行了优化,这类模型在边缘 AI 中日益重要,例如语音助手或实时视频分析。内置的内存管理系统和并行计算单元减少了数据传输延迟,确保低功耗下的高性能。

Ethos-U85 在保持强大计算能力的同时,优化了芯片尺寸,适合空间受限的物联网设备。从工业自动化的异常检测到智能相机的实时目标识别,Ethos-U85 的加入使边缘设备能够独立完成复杂的 AI 任务,无需依赖云端计算。

● Armv9 架构:安全与效率的基石
Armv9 架构作为这一平台的核心竞争力,在提升性能的同时,为边缘设备赋予了企业级的安全性。
◎ 其安全性增强方面,指针认证(PAC)可有效防止代码中的指针被恶意篡改,分支目标识别(BTI)能够防御分支预测攻击,内存标记扩展(MTE)则用于检测内存访问中的潜在漏洞,这些特性对于常部署在开放环境、需处理敏感数据的物联网设备而言至关重要,为其提供了更高的安全保障。
◎ 在性能优化上,SVE2 等技术显著提升了向量计算效率,使得 Armv9 在处理 AI 任务时表现卓越且功耗低。
通过将 Cortex - A320 和 Ethos - U85 与 Armv9 架构相结合,Arm 成功打造出一款兼顾性能、效率和安全性的边缘 AI 平台,有力地推动了物联网市场的快速扩展。
Part 2
软件生态系统:
加速边缘 AI 开发的利器
硬件的强大只有在软件生态的支持下才能充分发挥潜力。Armv9 边缘 AI 平台通过 Arm Kleidi for IoT 和广泛的兼容性,极大降低了边缘 AI 开发的复杂性,为开发者提供了高效、灵活的工具。
Arm Kleidi for IoT,作为一套专为物联网设备精心设计的软件优化工具包,堪称开发效率的倍增器,致力于简化并加速 AI 应用的开发与部署流程。
它借助优化计算库,为开发者提供针对 Arm CPU 的预优化计算库,能够自动加速 AI 和 ML 工作负载,让开发者无需手动调整代码就能轻松收获性能提升。
● 在框架集成方面,Kleidi 已与主流物联网 AI 框架深度融合,
◎ 比如与 Llama.cpp 集成,支持高效运行大型语言模型(LLM);
◎ 与 ExecuTorch 结合,可优化实时推理任务;
◎ 还通过 XNNPACK 与 LiteRT 实现对 TensorFlow Lite 等轻量化框架的兼容。
这种广泛的框架集成极大地拓展了其应用范围。
● 从性能提升成果来看,在运行 Microsoft 的 Tiny Stories 数据集时,KleidiAI 为 Cortex - A320 带来了高达 70% 的性能提升,不仅大幅加快了推理速度,还显著降低了能耗,延长了设备续航时间。
总而言之,Kleidi 的推出极大地降低了边缘 AI 开发的门槛,即使是非专业开发者也能够快速构建高效的 AI 应用,有力地加速了产品上市时间。

● Armv9 边缘 AI 平台在软件层面展现出卓越的广泛生态支持与兼容性。
◎ 它与更高性能的 Cortex - A 处理器保持兼容,使得开发者能够轻松复用现有的工具和代码,极大地提高了开发便利性。
◎ 同时,该平台对多种操作系统提供支持,其中 Linux 适用于承担复杂计算任务的边缘网关,而 Zephyr 这种轻量级实时操作系统(RTOS)则专为资源受限设备打造。
全球活跃的超过 2000 万 Armv9 开发者构成了强大的生态基础,他们能够充分利用 Armv9 的先进特性,借助丰富的社区资源,开发出更智能、高效的应用。
这种庞大生态系统所产生的规模效应,有力地缩短了开发周期,并且降低了总体拥有成本,为 Armv9 边缘 AI 平台的广泛应用与持续发展提供了坚实保障。
小结
Arm 推出的全球首款 Armv9 边缘 AI 平台,以 Cortex-A320 CPU 和 Ethos-U85 NPU 为核心,结合 Armv9 架构的强大特性,实现了在边缘设备上运行超过 10 亿参数 AI 模型的壮举,还通过 Arm Kleidi for IoT 等软件工具,将开发效率和性能提升到了新的高度。从工业自动化到智能城市,这一技术的应用潜力正在逐步释放。