神经拟态计算,英特尔再次取得重大进展

2024年06月03日 09:41    发布者:eechina
来源:半导体行业观察

Loihi,这个名字可能在普通消费者的耳中并不熟悉,但对于半导体领域来说,却并不陌生。神经拟态计算是一种借鉴神经科学研究的全新计算方法,通过存算一体和高细粒度的并行计算,大幅减少了数据传输。而Loihi芯片正是英特尔神经拟态计算芯片的代表。

回顾英特尔的神经拟态计算之路:2017年,英特尔研究院推出了一款神经拟态芯片Loihi 1,2020年推出基于Loihi 1的Pohoiki Springs。2021年英特尔研究院推出了第二代Loihi芯片,而就在前不久,英特尔首发大型神经拟态系统Hala Point,基于Loihi 2,神经元数量达到11.5亿。



Hala Point在主流AI工作负载上展现了出色的计算效率。研究显示,在运行传统深度神经网络时,该系统能够每秒完成多达2万万亿次(20 petaops)运算,8位运算能效比达到了15 TOPS/W,相当于甚至超过了基于GPU和CPU的架构。

无论是从研究、系统到应用的各个角度,Loihi项目持续向前推进,展现出了令人鼓舞的发展态势。

Hala Point:英特尔迄今为止最先进的神经拟态系统

关于神经拟态类芯片,想必大家都会觉得很神秘。近日,英特尔研究院副总裁、英特尔中国研究院院长宋继强在一次媒体沟通会上,详细解释了Loihi芯片背后的技术原理以及最新的研究进展。

宋继强指出,Loihi芯片的主要特点在于,它内部蕴含着一个最小的计算单元,这个单元模拟了生物大脑神经元的结构和运作方式。Loihi芯片中可能包含多个这样的单元,每一个最小的计算单元就是由计算逻辑和对应的存储构成的,所以它是一个存算一体化的芯片。

因此,Loihi内部确实包含了承载神经元胞体能力的组织,具备计算和存储逻辑,并模拟了神经元的输入输出过程。简单来说,神经元的输入通过轴突实现,而输出则通过树突完成。神经元胞体的树突能够连接到其他神经元的轴突,形成一个网络,从而实现神经元之间的相互连接。

Loihi 1芯片所采用的是英特尔14纳米的制程,2020年发布的基于Loihi 1芯片的Pohoiki Springs,大约是5U的规模,含有768个Loihi 1代的芯片。Pohoiki Springs系统里有接近1亿个神经元。作为对比,人脑共有860亿个神经元,也就是说,Pohoiki Springs相当于1/800大脑的神经元。

最新发布的Hala Point,尺寸比原来的Pohoiki Springs稍大一些,从5U增加到了6U,这个增幅并不大,但是在神经元数量上,却实现了11倍的增长,从1亿增加到了11.5亿。从尺寸来讲,这个系统与烤箱或者是行李箱尺寸相当,它的神经元规模已经达到人脑的1/80了。也就是说80个Hala Point堆在一起,就相当于人脑规模的神经拟态计算集群。
  
此外,Hala Point芯片升级为Loihi 2,Hala Point内部共有1152个Loihi 2的芯片,此外还包括140544个神经处理内核,2304个x86内核,用于调度和配置任务。相较于Loihi一代,在密度、计算能力、速度以及互连特性等方面都实现了显著提升。Loihi 2采用的是Intel 4制程技术,从英特尔14纳米制程节点升级至Intel 4,光是制程上,就使得芯片内部的晶体管密度和能效比都得到了显著提升。

了解神经拟态计算

神经拟态计算系统的最大优势的具有非常高的能效比,比如,最新的Hala Point神经拟态如此大规模的系统集群功耗仅为15TOP/S,这主要主要源于两个方面:

首先,它实现了存算一体化,因此避免了传统的核内外架构在处理大量数据传输时的能量损耗。

其次,它采用了异步电路设计,摒弃了中央时钟。宋院长进一步指出,神经拟态计算没有同步时钟概念,就像我们人脑,不是以一个很高的频率在工作,要不然就会 “烧脑”了。虽然这可能有些难以理解,因为像CPU、GPU或一些ASIC设计都是有一个同步的时钟来驱动的。一旦时钟启动,所有电路、内存等都在运行,耗电量很大,虽然可以根据情况进行一些选通,但大部分电路仍在耗电。然而,神经拟态计算系统采用的是异步事件驱动方式,即只有当事件走过特定路径时,该路径才耗电,而其他路径则处于休眠状态。

尽管拥有如此庞大的集群,但神经拟态计算系统在工作时只进行少量局部并行计算,而且突触之间的连接并非硬线连接,而是动态的消息队列式连接。这一设计既充分利用了突触的规模,又避免了占用总线连接,而是通过高效的消息传输队列来实现,从而以非常有效的方式消耗能量。

从所适用的应用上来看,神经拟态计算适合做的事情是对整体的能耗有要求,同时这个应用又对实时性要求很高,从输入到输出的一个延迟是有限制的。

对于当前的计算处理,尤其是处理AI工作负载时,如果采用神经拟态计算,那么能源利用将非常高效。神经拟态计算系统能够将大部分能量用于实际计算或数据更新,而不是浪费在数据传输上。现在许多人工智能大型模型或其他处理任务的能耗主要用于数据传输,即将数据从一个地方传输到另一个地方进行处理,因此其中约一半的能耗用于非有效的计算上。

再比如,“在某些专用的数据中心,如果说它在做大规模的优化任务,做这种物流调度,用神经拟态系统会有比较大规模的降低。”宋院长指出。

神经拟态的可塑性就体现在它里面每个神经元和它所谓的突触连接都是可配置的。当你有一个初始的模型放进去之后,在它学习的时候,还可以去改神经元里一些可配置的部分,让它跟着你训练的这些样本做一些相应的调整。这是为什么我们从Loihi一代就开始讲,它是一个可以持续片上学习的硬件,而不是说我训练好一个模型放上去之后,它就只能按照这个参数去做推理,这个是有差别的。因为它提在神经元级别下有可配置的地方,包括突触之间到底是粗还是细,还是把它断掉,这个都是可以配置的。

英特尔的神经拟态计算未来之路

在推进神经拟态计算方面,据宋院长的介绍,英特尔研究院的策略是三管齐下。首先,在硬件方面,持续推进架构的优化和创新,同时配合工艺制程的迭代,以获得更大规模和更优能效比的成果。这种设计直接受益于制程节点的提升,当前使用的是Intel 4制程,而未来可能还会有Intel 3、Intel 18A等更先进的制程,这将进一步推动神经元规模的增长,有望实现翻番甚至更多的提升。

第二个策略是要把软件打磨得更好。随着时间的推移,自从2021年开始构建软件堆栈以来,应用场景发生了许多变化,包括人工智能框架。从最初处理视觉和感知类应用,到现在需要运行更大规模的模型等,需求日益增加。因此,我们致力于与科研生态和当前应用进行对接,不断改进软件部分。

第三个策略是继续在INRC这样的全球合作社区中开展各种应用。我们期待在某些领域迅速实现规模化应用。尽管我们的芯片已经接近商业化水平,但在找到大规模商用产品之前,我们将继续将其作为研究院的实验型芯片,而非商业产品。

结语

总的来说,Loihi项目的成功标志着神经拟态计算技术的成熟与发展。英特尔将继续在硬件、软件和生态系统建设方面不断投入,并期待在更多领域实现神经拟态计算的规模化应用。我们也期待神经拟态计算能够在有朝一日找到合适的应用场景,真正发挥出其价值。