华为全联接大会爆点:徐直军揭秘自研芯片路线图,超节点算力颠覆行业认知
2025年09月19日 08:45 发布者:eechina
9月18日,第十届华为全联接大会在上海世博中心拉开帷幕。华为副董事长、轮值董事长徐直军以《以开创的超节点互联技术,引领AI基础设施新范式》为题发表主题演讲,首次系统性披露昇腾AI芯片未来三年演进路线,并发布全球首款百万卡级AI超节点集群,引发产业界强烈震动。这场被外界视为"中国芯片突围战"关键战役的发布,标志着华为在算力封锁下走出一条独特的技术路径。三年三代芯:昇腾芯片开启算力倍增模式
徐直军宣布,华为已规划2026-2028年三代昇腾芯片:2026年Q1推出950PR(推理优化型)和Q4推出950DT(训练优化型),2027年Q4发布960系列,2028年Q4亮相970系列。其中950系列首次采用双芯片协同架构,950PR专注推理场景的Prefill阶段,950DT强化训练性能,两颗芯片通过2TB/s互联带宽实现算力无缝衔接。
技术突破方面,950系列新增支持FP8/MXFP8等低精度数据格式,向量算力占比提升至40%,并采用SIMD/SIMT双编程模型创新设计。特别值得关注的是华为自研的HiBL 1.0和HiZQ 2.0两种HBM内存,通过将内存访问颗粒度从512字节降至128字节,使离散数据访问效率提升3倍。
"昇腾960将在算力、内存带宽等核心指标上较950系列翻倍,而970系列将实现互联带宽再翻倍、内存容量增加1.5倍。"徐直军透露,970系列正在探讨引入光子计算芯片等前沿技术,目标在2028年构建起对抗英伟达Blackwell架构的算力壁垒。
超节点革命:重构AI基础设施范式
大会现场,华为发布Atlas 950 SuperPoD和Atlas 960 SuperPoD两款超节点产品,分别支持8192和15488张昇腾卡互联。经实测,Atlas 950 SuperPoD可提供300PFLOPs的密集BF16算力,较英伟达GB200 NVL72系统性能提升近2倍。更令人震撼的是其扩展能力——通过"灵衢(UnifiedBus)"互联协议,华为构建起Atlas 950 SuperCluster(50万卡规模)和Atlas 960 SuperCluster(百万卡规模)两大集群产品,其中960集群FP8总算力将达2 ZFLOPS,相当于全球现有最强算力中心的20倍。
"超节点在逻辑上是一台计算机,但在物理层面需要攻克三大难题。"徐直军坦言,华为通过重新设计光器件、光模块和互联芯片,使光互联可靠性提升百倍、距离突破200米;采用多端口聚合与高密封装技术,实现TB级超大带宽;依托平等架构和统一协议,将跨柜卡间互联时延压缩至2.1微秒。这些突破使得万卡级超节点能够像单机一样完成深度学习训练任务。
技术破局:联接能力弥补制程短板
面对美国制裁导致的先进制程获取困难,华为选择"以架构创新突破物理限制"的战略路径。"我们单颗芯片算力或许不及竞争对手,但通过系统工程方法,华为已部署超过300套Cloud Matrix 384超节点。"徐直军展示的数据显示,基于7nm制程的昇腾910C芯片,通过超节点架构实现的集群算力,已超越采用3nm制程的英伟达H200集群。
这种技术路线正获得市场验证。据IDC数据,2024年华为昇腾芯片在中国AI服务器市场份额从15%跃升至35%,而英伟达份额从70%跌至40%。百度、阿里等企业已将昇腾作为大模型训练主要算力底座,特斯拉更在车机系统中接入鸿蒙生态,采用昇腾芯片进行自动驾驶模型迭代。
生态开放:CANN编译器等核心工具年底前全开源
在发布硬核技术的同时,华为宣布重大开源计划:2025年12月31日前,将完成CANN编译器、Mind系列应用使能套件及openPangu基础大模型的全面开源。徐直军强调:"这不是简单的代码开放,而是要构建起包括虚拟指令集接口在内的完整技术生态。"
目前,昇腾生态已适配160多个大模型,联合80家伙伴推出大模型一体机。值得关注的是,华为首次将超节点技术引入通用计算领域,发布的TaiShan 950 SuperPoD通用计算超节点,结合GaussDB分布式数据库,可完全替代大型机、小型机及Exadata数据库一体机。"这将是传统计算架构的终结者。"徐直军断言。
当被问及中美芯片竞争时,徐直军回应:"算力竞赛不是单芯片的军备竞赛,而是系统工程的比拼。华为用三十年联接技术积累,在7nm制程上实现了3nm制程的算力效能,这就是中国科技的创新答案。"这场持续90分钟的演讲,多次被现场2000余名参会者的掌声打断,而华为展区展示的384颗昇腾芯片组成的超节点实物机柜,更成为本届大会最热门的打卡地标。