安谋科技发布新一代NPU IP“周易”X3

2025年11月14日 09:59    发布者:eechina
11月13日,安谋科技(中国)有限公司在上海举办新品发布会,正式推出新一代神经网络处理器IP——“周易”X3。这款基于创新DSP+DSA混合架构的NPU专为端侧大模型计算设计,在AI推理性能上实现突破性提升,为基础设施、智能汽车、移动终端和智能物联网四大核心领域提供强劲的AI算力支撑。

“周易”X3从计算效率、带宽、精度适配、任务处理四大维度实现升级,精准解决端侧AI大模型运行难题。其单Cluster最高支持4个Core,拥有8 - 80 FP8 TFLOPS算力且可灵活配置,单Core带宽高达256GB/s。相较于上一代产品“周易”X2,“周易”X3的CNN模型性能提升30% - 50%,多核算力线性度达到70% - 80%。在同算力规格下,AIGC大模型能力较上一代产品实现10倍增长,这得益于16倍的FP16 TFLOPS、4倍的计算核心带宽、超过10倍的Softmax和LayerNorm性能提升共同驱动。在实际测试中,“周易”X3在Llama2 7B大模型实测中表现出色,Prefill阶段算力利用率高达72%,并在安谋科技自研的解压硬件WDC的加持下,Decode阶段有效带宽利用率超100%,远超行业平均水平,满足大模型解码阶段的高吞吐需求。



“周易”X3在架构层面实现了多项创新,集成自研解压硬件WDC,使大模型Weight软件无损压缩后通过硬件解压能获得额外15% - 20%等效带宽提升;新增端侧大模型运行必备的W4A8/W4A16计算加速模式,对模型权重进行低比特量化,大幅降低带宽消耗,支持云端大模型向端侧的高效迁移;集成AI专属硬件引擎AIFF(AI Fixed - Function)与专用硬化调度器,实现超低至0.5%的CPU负载与低调度延迟,灵活支持端侧多任务场景和任意优先级调度场景,确保高优先级任务的即时响应;支持int4/int8/int16/int32/fp4/fp8/fp16/bf16/fp32多精度融合计算,强浮点计算,可灵活适配智能手机边缘部署、AI PC推理、智能汽车等从传统CNN到前沿大模型的数据类型需求,平衡性能与能效。

除了高性能硬件,“周易”X3还配套完善易用的“周易”Compass AI软件平台,通过“软硬一体”的协同设计,让开发者从“好用”到“用好”,显著提升开发部署效率。Compass AI软件平台通过覆盖开发全流程的工具链、极致的易用性优化与开放的生态布局,破解端侧AI开发“适配难、周期长、门槛高”的痛点。其核心工具NN Compiler(神经网络编译器)集成Parser(模型解析)、Optimizer(优化器)、GBuilder(生成器)及AIPULLM(大模型运行工具),可实现主流模型的高效转化、自动化优化与部署配置生成。该平台支持超160种算子与270种模型,兼容TensorFlow、ONNX、PyTorch、Hugging Face等主流AI框架,提供开箱即用的Model Zoo。通过AIPULLM工具链,直接支持Hugging Face格式模型,实现“一站式”转化与部署,极大降低开发门槛。同时,平台实现业界领先的大模型动态shape支持,高效处理任意长度输入序列;提供包括Tensor/Channel/Token Level多样量化方式,以及GPTQ等大模型主流量化方案,并增加对LLM/VLM/VLA及MoE等模型的高性能支持,保障推理精度并实现云到端快速迁移。此外,平台还提供多种开放接口,支持用户模型与自定义算子的开发与调试;配备丰富的调试工具与Bit精度软件仿真平台,支持多层次白盒开发与性能调优;支持Android、Linux、RTOS、QNX等多种操作系统,并通过TVM/ONNX实现SoC异构计算,高效调度CPU、GPU、NPU等计算资源。

安谋科技产品研发副总裁刘浩表示:“在‘All in AI’产品战略的指引下,我们将持续加大投入,以前瞻性视野整合顶尖研发资源,秉持开放合作理念,为生态伙伴提供从硬件、软件到服务的端到端解决方案,全力赋能伙伴的产品创新和商业化落地。”此次“周易”X3的发布,进一步完善了安谋科技在端侧人工智能领域的布局。自2018年独立运营以来,安谋科技在自研业务方面积极布局,推出了包括“周易”神经网络加速器、“星辰”中央处理器、“山海”服务处理单元、“玲珑”视觉处理器单元及数据处理器等自研业务产品线。目前,安谋科技在国内的授权客户已超过440家,累计芯片出货量突破425亿片。