欧洲最强芯片,碰壁!

2024年06月26日 14:59    发布者:eechina
来源:半导体行业观察

设计芯片并将其引导至代工、封装和组装是一个复杂而困难的过程,如果国家层面不具备这些技能,将对这些国家的竞争力产生深远影响。

在许多方面,欧洲的行为更像一个国家,超级计算当然也是如此,过去几十年来,超级计算一直是一项合作事业。2010 年代末,正当 HPC 加速计算的浪潮在人工智能领域达到高潮时,欧洲厌倦了依赖美国和日本供应商的超级计算机计算引擎,并成立了欧洲处理器计划,以创建本土的欧洲计算引擎,并成立了欧洲 HPC 合资企业,为整个欧洲安装的百亿亿次级和百亿亿次级系统提供资金。迄今为止,已为三个百亿亿次级系统编制了预算。

EPI 处理器和加速器路线图上出现了一些坎坷和延误,但欧洲仍然致力于在当前情况下尽可能实现百亿亿次系统所用计算引擎的本土化。

当我们进一步了解欧洲第二个百亿亿次级系统时,我们想到了这一点,该系统将被称为“Alice Recoque”,并将在法国运行,与此同时,我们也在思考 SiPearl 推迟推出其第一代“Rhea1”基于 Arm 的处理器,该处理器将设计为 EuroHPC 联盟的主机处理器,该联盟正在 EPI 努力下推动 CPU 和加速器的设计。

处理器交付延迟是芯片行业的常态,而非例外,尽管从外部来看可能并非如此。芯片设计者/销售商(我们不愿使用“制造商”这个名词,因为如今除了英特尔以外,他们通常不生产芯片)内置缓冲区,这就是他们坚持相当常规的路线图的方式。设计 Rhea 系列 CPU 的 SiPearl 芯片初创公司正在实时学习所有这些技能,这些 CPU 旨在用作欧洲百亿亿次级超级计算机的主处理器以及 HPC 领域常见的仅 CPU 工作负载的计算引擎。它在设计第一款芯片时已经耗尽了大量缓冲区。这对于 EPI 工作和欧洲的百亿亿次级愿望来说都是不幸的,但欧洲在试图培养本土芯片技术时有应急计划。

你必须在这里打一场长期的比赛,包括投资铸造厂和封装公司,以便他们在欧洲建立先进的工厂,如果你想要能够自力更生,正如欧洲肯定做的那样。

SiPearl 是一家位于法国巴黎郊外的初创公司,其 Rhea1 CPU是“Jupiter”百亿亿次级超级计算机的核心,该超级计算机将于今年在德国于利希研究中心安装。EuroHPC JV 尚未透露有关最终 Jupiter 配置的大量细节,但我们知道 Jupiter 系统中所谓的“GPU Booster”部分可能基于 Nvidia 的“Grace”CG100 Arm 服务器芯片和“Hopper”H100 GPU 加速器超级芯片。我们之所以说“可能”,是因为我们认为,当 Jupiter 的 GPU Booster 模块在今年晚些时候启动时,很有可能基于 Nvidia 的“Blackwell”B100 GPU,与 H100 相比,其 FP64 性能提高了 2.3 倍,预计增量成本约为 1.6 倍。

在 6 月份的 500 强超级计算机排行榜上,我们一窥了 Jupiter 系统的大部分计算能力,当时 FZJ 展示了一个名为“Jedi”的原型系统,该系统由 Grace-Hopper 超级芯片组成,通过同样来自 Nvidia 的四轨 200 Gb/秒 NDR InfiniBand 网络连接。Jedi 是 Jupiter Exascale Development Instrument 的缩写,它有 24 个 Grace-Hopper 超级芯片,在 FP64 性能上峰值为 5.1 petaflops,在高性能 LINPACK 基准测试中峰值为 4.5 petaflops。重要的是,在 67.3 千瓦的功耗下,这架 Grace-Hopper 系统每瓦可提供 72.7 gigaflops,这使其成为各种 HPC 基准测试中能效最高的机器。Blackwell GPU 可能会将 GPU Booster 的能效推得更高。

我们推测,为了挽回面子,并让 Rhea1 经受真正的压力测试,EuroHPC 和 EPI 都希望 Jupiter 的通用集群(也称为集群模块)仍然基于 Rhea1 处理器,即使这款 CPU 的交付时间已经推迟到 2025 年,尽管它基于 Arm 的 Neoverse“Zeus”V1 内核。

但无论如何,由于 EPI 并未为 Jupiter 提供可以取代 Nvidia GPU 的 RISC-V 加速器(我们认为它仍将尝试这样做),因此由于 GPU 助推器已切换到 Nvidia 超级芯片,因此将有大量 Arm 内核可用于运行仅使用 CPU 的应用程序。

Jupiter 的绝大部分计算能力将集中在 GPU 加速节点上。通过在 GPU Booster 节点中使用 Nvidia 超级芯片,将有大量 Grace 处理器可用——准确地说,每个 Hopper 或 Blackwell GPU 都有一个。要在 LINPACK 测试中轻松突破 1 exaflops 的性能,可能需要 32,000 个带有 H100 的节点和 16,000 个带有 B100 的节点,因此将需要 32,000 或 16,000 个 Grace CPU,每个 CPU 有 72 个内核,总共 230 万或 115 万个内核。我们认为后者在 GPU 性能和能效方面是理想的,但很难说 EuroHPC 是否能让 Nvidia 放弃 Blackwell GPU 来为 Jupiter 系统服务。如果 Nvidia 在 Jupiter 时间范围内只有 H100,那么 FZJ 将获得两倍的 Grace 核心,因为它正在等待 Rhea1 的交付和基于它的通用集群。

相比之下,FZJ 的“Juwels”系统基于英特尔“Skylake”Xeon 8168 处理器,具有 114,840 个内核,峰值聚合 FP64 性能为 9.9 petaflops。较新的“Juwels Booster”系统于 2020 年安装,拥有 449,280 个 AMD Epyc 7402 处理器内核,峰值额定速度略低于 71 petaflops。我们根据布里斯托大学安装的 Isambard 3 系统中使用的 Grace-Grace 超级芯片的性能得出的猜测是,Jupiter 的 GPU Booster 中的 32,000 个 Grace CPU 本身将在 FP64 下提供约 225 petaflops 的性能。这是 FZJ 目前安装的 Juwels 和 Juwels Booster 全 CPU 系统的全 CPU 性能的 2.8 倍。

Rhea1 对此添加的任何内容都是渐进的且好的,并且为 Rhea1 创建的软件可以在 Grace 上运行,反之亦然,因为它们都遵守 Arm 标准。

正如我们之前在 2023 年 4 月报道的那样,Rhea1 预计将拥有 72 个基于 Arm 的“Zeus”V1 内核的内核,并将于今年上市。在最近的一次延迟之后,SiPearl 现在表示,它将在 2025 年的某个时候提供最多 80 个内核的 Rhea1。这意味着在恒定时钟速度下吞吐量将提高 11%,这有助于稍微缓解延迟问题。

我们认为最初的计划是使用台湾半导体制造公司的 7 纳米工艺来生产 72 个内核,而在此过程中,SiPearl 转向了台积电的 7 纳米工艺的 N6 改进版,并能够在设计中添加另外 8 个活动内核。(84 个内核更容易添加,因为最初的设计似乎是每列 12 个内核,而为了实现良率可能会损失 4 个内核。)



Rhea1 芯片混合了 DDR5 主内存和 HBM2e 堆叠内存,据我们所知,混合内存子系统是导致该处理器延迟的原因。我们在 2020 年看到的规格显示它有四个 DDR5 内存控制器,但现在我们看到它也有四个 HBM2e 内存堆栈,来自三星。该芯片的 I/O 控制器预计还将有 104 条 PCI-Express 5.0 通道。

还有一件事需要考虑:Nvidia在 Grace CPU 中使用了“Demeter”V2 内核,这一点很重要。亚马逊网络服务 (Amazon Web Services ) 即将推出的“Graviton4”自主研发处理器也使用了这些V2 内核。Rhea1 中使用的 Zeus 内核中的 V1 内核有一对 256 位 SVE2 矢量引擎,但 V2 内核有四个 128 位矢量,在某些类型的处理中效率更高。

无论如何,按照某种思维方式,32,000 个 Grace-Hopper 超级芯片在 LINPACK 上达到每秒百亿亿次浮点运算的峰值 FP64 性能要比在 FZJ 上达到 16,000 个 Grace-Blackwells 更好,因为这样可以获得两倍的 CPU 数量。

这将带我们走进将安装在 GENCI 的 Alice Recoque 系统,该系统由 CEA(法国相当于美国能源部)运营,并由法国和荷兰政府以及 EuroHPC JV 集体出资。



Rhea2 芯片预计将由两个芯片组成,根据上述路线图,从今年早些时候开始,它预计将于 2025 年完成,使用 Rhea2 的百亿亿次级系统(复数)将于 2026 年在欧洲安装。我们猜测两个芯片至少各有 64 个内核,性能将提高 1.6 倍。Rhea2 可能会尝试将内核数量推至 192 个,每个芯片有 96 个内核。这将是 Rhea1 内核数量的 2.4 倍,但我们认为时钟速度必须略有降低,因此最终性能可能只有 2 倍。

如果 SiPearl 想要避免 Rhea2 芯片的麻烦,我们强烈建议该公司与 Arm 合作,使用“Poseidon”V3 核心及其“Voyager”计算子系统 (CSS) V3 包。这将有助于所有芯片设计人员简化流程并加快开发速度。因为没有时间尝试从头开始做所有事情,以满足 Rhea2 和 Alice Recoque 系统进入 GENCI 并由 CEA 运行的 2026 年最后期限。

Arm 早在 2023 年 8 月就启动了 CSS 计划,并展示了如何采用 CSS 堆栈(包括内核、网格互连、I/O 控制器等)来节省 80 个工程师年的工作量。由于只有 190 名员工,并且只有两年时间推出 Rhea2,即 380 个工程师年,SiPearl 似乎是 Voyager CSS V3 套件的理想候选者。



在上表中,Jupiter 机器有 32,000 个 Grace-Hopper 节点。在其他机器中,当有 GPU 时,CPU 基本上被忽略,但出于上述原因,我们认为 Jupiter 不会出现这种情况。有传言称 Rhea1 集群将只有 1,300 个节点。这性能不是很好。

我们认为 EuroHPC JV 确实希望在 Alice Recoque 系统的所有节点中都使用 Rhea2,并且希望在系统中基于 RISC-V 架构加速“Hurricane”EPAC。我们认为每个 Rhea2 CPU 上都会连接大量此类 EPAC 协处理器,我们还认为它们将以四比一的 CPU 和加速器比例配置。我们不知道 Hurricane 设备的性能如何或效率如何,因此我们无法估计需要多少设备才能突破 LINPACK 上的 1 exaflops 障碍。

如果这一切都失败了,那么 EuroHPC JV 可以资助一个基于 Nvidia 电机的系统,使用未来的“Vera”Arm 服务器 CPU 和“Rubin”GPU 加速器,然后就完事了。

我们还认为,Alice Recoque 不由法国系统制造商和 IT 服务供应商 Atos 的超级计算子公司 Eviden 打造是不可想象的。

Alice Recoque 系统的预算为 5.42 亿欧元(5.802 亿美元),其中 2.71 亿欧元(2.911 亿美元)来自 EuroHPC JV,2.63 亿欧元(2.815 亿美元)来自法国政府,800 万欧元(860 万美元)来自荷兰政府。

顺便说一句,欧洲第二台百亿亿次级计算机系统的名字来源于爱丽丝·阿尔诺·雷科克,她于 1929 年出生于阿尔及利亚,并于 1954 年在巴黎高等电子与电气工程学院(相当于法国的麻省理工学院)获得工程学研究生学位。毕业后,她在 Société d'Electronique et d'Automatisme (SAE) 工作,帮助设计了多代小型计算机,特别是 Mitra 系列,该系列是为了与 Digital Equipment Corp 的 PDP 和 VAX 系列竞争而创建的。1985 年,她转投 Bull Group,从事并行超级计算机和人工智能方面的工作,同时还担任多所法国著名大学的计算机科学教授。