Arm SME2:移动AI的“幕后”革命,重塑端侧智能新版图

温故智新AIGC实验室

TL;DR:

Arm可伸缩矩阵扩展2(SME2)正通过CPU指令集和KleidiAI库,将AI推理能力高效带入亿万Android设备,实现显著的性能提升而无需应用修改。这不仅是Arm在移动AI领域巩固主导地位的关键一步,更预示着一个由设备端智能驱动、兼顾性能与隐私的未来,深刻影响芯片设计、软件开发及人机交互的深层逻辑。

Arm在移动计算领域的战略布局正加速迈向一个新纪元:通过引入可伸缩矩阵扩展2(Scalable Matrix Extension 2,简称SME2)及其配套的KleidiAI库,Arm正在重塑移动设备上的AI体验,尤其是在Android生态中。这项技术的核心在于,它将高性能的AI推理能力直接“下沉”到CPU层面,以前所未有的效率赋能设备端智能,而这一切对开发者而言几乎是“无感”的,对用户而言则是丝滑体验的飞跃。

技术原理与创新点解析

SME2并非全新的概念,它是建立在Armv9-A架构中已有的可伸缩矩阵扩展(SME)基础之上的演进。作为一套先进的CPU指令集,SME2的核心创新在于专为矩阵密集型计算优化,这正是现代AI模型,尤其是大型语言模型(LLMs)进行推理的关键运算。传统的CPU在处理这类计算时效率不高,而SME2通过引入多向量数据处理指令、多向量加载存储以及预测机制的支持,大幅提升了CPU处理AI工作负载的效能。

这项技术的精妙之处在于其软件-硬件协同的深度优化。为了让开发者能够无缝利用SME2的强大能力,Arm推出了一款名为KleidiAI的库。KleidiAI被设计成一个高度模块化的、基于微内核(micro-kernel)的架构,能够以最小的软件开销实现特定机器学习操作符(如矩阵乘法)的高性能加速1。更重要的是,它被集成到了广泛使用的AI框架后端——Google的XNNPACK中。这意味着,当应用调用XNNPACK时,如果设备支持SME2且兼容,XNNPACK将自动通过KleidiAI将矩阵密集型操作路由至SME2,从而实现性能的“透明”提升,无需开发者更改现有应用逻辑或底层基础设施1

这种“幕后”的效率提升带来的影响是革命性的。数据显示,在支持SME2的硬件上,Google的Gemma 3模型提供了6倍更快的聊天响应,并且可以在不到一秒的时间内,在单个CPU核心上开始总结多达800个单词。同样,在运行3.8B参数Phi-3 Mini模型的vivo X200 Pro旗舰智能手机上,提示处理速度测量提升了2.6倍1。这些量化数据不仅展示了SME2的强大能力,也印证了CPU在特定AI工作负载上,通过指令集优化,可以与专用AI加速器展开有效竞争。

产业生态影响评估

Arm SME2和KleidiAI的到来,对整个移动AI产业生态构成了一次深远的结构性影响

首先,对于Arm自身而言,这是其在AI时代巩固IP核心地位的关键战略。尽管市场对NPU(神经网络处理器)的关注日益增加,但CPU作为设备的通用计算核心,其普及性和灵活性是NPU无法比拟的。通过SME2,Arm不仅强化了其Armv9-A架构的竞争力,也向业界表明,CPU依然是承载高级AI模型,特别是实时移动推理任务(如图像、语言处理和语音生成)的核心引擎。这种“CPU也能跑AI”的叙事,有助于确保Arm架构在未来AI计算平台中的基石地位。

其次,对于移动应用开发者而言,SME2和KleidiAI大幅降低了设备端AI开发的门槛和成本。开发者无需为特定硬件优化代码,也无需依赖复杂的外部依赖项或内存管理,即可自动获得AI性能提升。KleidiAI的通用性使其能够与LiteRT、MNN、PyTorch等多种主流机器学习和AI框架无缝协作1。这种**“开箱即用”的高性能AI能力**,将极大地激发移动应用创新的活力,催生更多复杂的、低延迟的、隐私友好的设备端AI应用。

再者,从商业和投资角度看,这项技术将提升Arm生态中智能手机厂商的竞争力。vivo X200 Pro作为首批展示SME2优势的旗舰机型,预示着未来高端智能手机将把高效的设备端AI能力作为核心卖点。对于消费者而言,这意味着更流畅的AI体验、更快的响应速度和更好的隐私保护,因为数据处理更多地发生在本地设备上。这可能会进一步推动智能手机市场向更强调AI能力的方向演进,并影响消费者对下一代设备的购买决策。

从更广阔的视角来看,SME2的普及将加速**“端侧智能”的普及进程**。随着AI模型变得越来越大,将其完全部署在云端不仅成本高昂,还存在网络延迟和数据隐私的挑战。将AI推理能力推向设备端,是实现**“普适智能”(Ubiquitous AI)**愿景的关键一步,它使得AI可以无处不在、实时响应,并且在很大程度上脱离对云服务的依赖。

未来发展路径预测

展望未来3-5年,Arm SME2的普及将是移动AI发展的重要分水岭。

首先,CPU与NPU的协同将成为主流。SME2的出现并非要取代专用NPU,而是优化CPU在AI工作负载中的角色。我们可以预见,未来的移动SoC将更加强调CPU、GPU和NPU之间的异构计算协同。例如,对于通用性强、矩阵运算占比较高的AI任务,SME2优化的CPU将发挥其高效率;而对于特定高并发、低精度计算,NPU则可能继续占据优势。这种分工与协作,将共同推动设备端AI性能达到新的高度。

其次,设备端大模型的普及将成为可能。SME2带来的性能飞跃,使得在资源受限的移动设备上运行更大、更复杂的AI模型(如百亿参数级别的LLM)变得更加可行。这将催生出更加智能和个性化的移动应用,例如能够进行复杂实时对话的AI助手、离线运行的图像视频生成工具、以及具备高级场景理解能力的AR应用。隐私保护将成为设备端AI的核心优势,因为敏感数据无需上传云端即可进行处理。

最后,Arm的这一战略举措也将对整个AI软件栈带来深远影响。随着底层硬件的加速能力日益增强,AI框架和应用开发工具将进一步向模型压缩、量化和优化的方向发展,以最大化利用设备端的计算潜力。同时,边缘AI推理的市场规模将持续扩大,带动相关芯片、工具链和解决方案的投资和创新。我们可能看到,开发者社区将更加关注如何在不同类型的Arm设备上实现AI应用的最佳性能,从而推动新的最佳实践和开发范式出现。

SME2的落地,是Arm在技术、商业和生态层面的系统性布局。它不仅是指令集的升级,更是对未来移动智能形态的一次深刻预言。随着SME2在Android生态中的全面铺开,我们正迈入一个真正由“指尖上的AI”驱动的未来,一个更智能、更高效、更具个体主导权的数字世界。

引用


  1. Arm可伸缩矩阵扩展2即将登陆Android,以加速设备上的AI·InfoQ(2025/7/14)·检索日期2025/7/14 ↩︎ ↩︎ ↩︎ ↩︎