AI浪潮,带动存储芯片再进化

2024年03月05日 14:13    发布者:eechina
来源:半导体行业观察

全球产业数位化,数位资料规模攀升,加上AI技术兴起,全球对资料处理、大数据分析与AI应用的需求快速增长,间接提高对支援高效能运算(HPC)与AI运算的硬体装置及芯片要求。以云端资料中心伺服器来说,HPC与AI运算需求下,需要搭配升级的芯片包含作为运算核心的中央处理器(CPU)与图形处理器(GPU)、伺服器基板管理芯片(BMC)、电源管理芯片(PMIC)、高速传输芯片,以及存储等。

其中,存储除用于长期储存资料、属于非挥发性存储的NAND Flash固态硬盘(SSD),也包含用于即时高速运算暂存资料、属于挥发性存储的静态随机存取存储(SRAM)与动态随机存取存储(DRAM)。

存储在芯片运算过程中的主要作用,是暂存运算过程中的中间值或参数。传统的暂存用存储可区分为芯片内部的快闪(Cache)存储与外部连接的DRAM。随着运算效能持续提升,芯片对内部与外部存储的容量与资料存取速率要求提高,特别是内部Cache存储。在封装的空间尺寸有限下,将小芯片(Chiplet)透过先进封装在单一芯片内形成更高密度的堆叠整合,成为提高芯片内部存储容量的重要选项。

先进封装技术发展针对芯片运算效能与功能持续提升的需求,透过中介层、矽穿孔与微凸块等技术达成2.5D/3D的小芯片堆叠,使业者能在更小空间内达成更多运算单元与芯片功能整合。超微(AMD)的Ryzen 7 5800X3D芯片就是存储小芯片与CPU堆叠整合的例子:透过在CPU上方堆叠64MB的SRAM存储小芯片,将CPU原本32MB的Cache存储扩充为96MB,使CPU运算效能提升15%。

不过,用于HPC或AI运算的高阶GPU芯片,如英伟达(NVIDIA)的H100与超微的MI300,其主要运算架构是以GPU运算核心搭配可快速大量存取传输资料的高频宽存储( HBM ),二者透过先进封装技术,也就是台积电的CoWoS 2.5D封装技术在中介层上整合连接。

HBM是超微与存储大厂SK海力士、联电、日月光等伙伴合作开发,SK海力士在2015年量产第一代HBM(HBM1),导入超微Radeon Rx300 GPU芯片。随后南韩与存储大厂Samsung Electronics与Micron Technology也投入HBM开发。其主要结构是由多层DRAM存储小芯片形成的高容量存储垂直堆叠,最下层是HBM的控制芯片。堆叠中上一层DRAM与下一层DRAM间的讯号透过微凸块连接,而上一层DRAM的讯号可穿过下一层DRAM的矽穿孔与更下层的DRAM甚至最下层的控制芯片连接,再向下传递至基板。垂直堆叠的短距离确保层与层间的讯号传输快速且耗能低,间接提升运算效能。

在CoWoS架构下,GPU运算核心可搭配多个HBM堆叠。目前全球已发展到HBM3的最新规格,在HBM堆叠数、垂直堆叠层数及层间讯号连接通道数都有增加;如从HBM2到HBM3,堆叠数可从八个增至16个,有效提升存储的资料容量与存取传输速率。

HBM主要是搭配GPU这类高运算效能芯片,本身主要结构采用3D堆叠的先进封装制作,再以CoWoS先进封装与GPU运算核心整合,形成完整的GPU芯片。若非GPU采用7奈米以下先进制程制作,是属于高单价产品,要以先进封装整合HBM的芯片生产成本是难以承受。在超微Ryzen 7 5800X3D芯片的例子中,CPU上方堆叠SRAM小芯片,为提高存储容量,也需以先进制程制作SRAM,成本高昂。

针对智能物联网(AIoT)应用所需中等算力需求,有半导体业者提出非先进制程运算芯片搭配客制化DRAM存储的解决方案,将存储与运算芯片以3D封装垂直堆叠。所谓的客制化DRAM存储,是根据运算芯片的电路与内连线的接触电极分布,设计出DRAM芯片的电路与资料存取传输通道位置,使运算芯片与垂直堆叠的DRAM小芯片之间能有高效率的资料存取传输,以提升运算效能。运算芯片是以AIoT应用所需的单芯片(SoC)或特殊应用芯片(ASIC)为主,而DRAM高于SRAM的存储密度,让DRAM小芯片在不采用先进制程下可拥有相当于SRAM小芯片的容量,也是成本优势。

有存储业者与晶圆代工业者、封测业者、IC设计业者合作,构建解决方案平台,依照应用需求,完成ASIC、DRAM以及二者封装连接与散热等需求的完整设计。无论是ASIC与DRAM都采用成熟制程制作,相较HBM、SRAM与先进制程运算芯片的组合,成本降低,可因应应用开发业者对成本结构的要求。

因应日渐增加的AI应用,存储以小芯片或HBM等不同的样态,可透过先进封装技术与运算芯片形成单一芯片封装,支持不同类型的运算需求,也促成半导体产业链跨领域多元整合的生态体系发展。