端侧AI应用兴起，安谋“周易”NPU加速算力升级

2024年11月12日 20:44 发布者：eechina

沉睡多年后，人工智能（AI）再次醒来，其势如滔滔江河，不可阻挡。随着天量资本不断涌入，各种创新突破令人瞠目结舌。随后，AI技术快速向各个应用领域渗透，成为提升产品竞争力的利器。

如今，AI部署已经从昂贵的数据中心云端蔓延到了寻常的应用终端，如手机、电脑和汽车，甚至可穿戴设备。端侧的硬件AI算力成为提升AI设备性能的重要一环。那么，端侧AI算力有何优势？如何才能有效提升终端算力？在近期举办的E维智库第12届中国硬科技产业链创新趋势峰会暨百家媒体论坛上，安谋科技产品总监鲍敏祺先生以“端侧AI应用‘芯’机遇，NPU加速终端算力升级”为题进行了讲解。

鲍敏祺以智能手机为例介绍了AI如何提升用户体验，包括AI大模型对语音、图片和视频的理解能力，以及其分析和总结能力，这些能力使得手机成为我们生活和工作中的得力助手。在AI的部署方式方面，以大语言模型（LLM）为例，厂商们的选择各有不同。目前，除华为以外，所有中国手机厂商都在不同程度地布署了设备端AI，如下图所示。

鲍敏祺介绍说，与单纯的云AI相比，端侧AI具备两个优势：时效性和数据的安全性。虽然云AI的算力更强大，能够获得更强的理解力，但其响应存在延迟。此外，由于端侧产品针对特定应用和特定用户，所以AI的学习训练也更加具有针对性，用户体验会更好，产品的用户粘度也就更高。

鲍敏祺说，由于内存带宽的限制（50-100GB/s），端侧大模型的规模一般被限制在1B至3B，而7B是临界值。从商业化的角度去看，芯片厂商达成了一个基本共识：消费类产品AI的未来投入重点是神经网络处理器（NPU）。为方便芯片厂商设计研发NPU，安谋科技推出了“周易”NPU IP，它在功耗、成本和生态系统诸方面都具有优势。

据介绍，“周易”NPU正朝着更高能效的方向演化。首先，其微架构实现了升级，保留了部分卷积神经网络（CNN）功能，增强了transformer语言大模型能力。第二，通过混合精度量化、片内互联、压缩和稀释等技术实现了更高效率。其次，通过数据/模型的并行处理、负载均衡和tiling技术提升了效率。“周易”NPU的结构如下图所示，重点是其任务日程管理器和异构策略。

鲍敏祺说，“周易”NPU可应用于智能汽车、智能手机、PC和AIOT等场景，其策略各有不同。下面是汽车应用的示例，其中不仅包含了安谋的“周易”NPU，也包含了安谋的山海SPU、玲珑VPU和玲珑DPU，以及Arm的Mali GPU和ISP。

鲍敏祺说，“周易”NPU能够涵盖ADAS、智能座舱、车载娱乐系统等不同汽车场景。上面的“周易”NPU具有20到320 TOPS可扩展性，以应对不同场景的不同算力需求。例如，车载信息娱乐系统（IVI）的要求不会很高，但ADAS在很多情况下要执行多任务，所以需要更高的算力。据悉，搭载了“周易”NPU的芯擎科技“龍鷹一号”芯片已累计出货超过40万片，并成功应用于吉利旗下的领克、银河系列以及一汽红旗等20余款主力车型中。对于下一代“周易”NPU，安谋会增强自动驾驶AI方面的算力和效率。

Ceva NeuPro-Nano NPU支持出门问问TicHear 语音AI 为智能边缘设备实现多语言设备端智能处理能力

全新 Arm Lumex CSS 平台加速开发周期，实现可扩展的高性能端侧 AI

全新 Arm C1 CPU 集群释放移动端侧 AI 卓越性能与能效

基于米尔RK3576部署端侧多模态多轮对话,6TOPS算力驱动30亿参数LLM

Ceva与扬智科技宣布建立战略合作关系为下一代视频平台提供可扩展的边缘人工智能技术

端侧AI应用兴起，安谋“周易”NPU加速算力升级

相关文章