我国类脑计算处于什么水平?人工智能下神经科学启发的类脑计算
类脑计算 | 人工智能 | 液冷服务器
深度学习 | 神经科学 | 水冷工作站
随着近几年深度学习、神经科学、数字孪生和量子计算的迅速发展,人工智能成为了无论学术界还是互联网领域的一个重要的研究热点。然而,人类在认识世界和改造世界的过程中从自然界和生物特征汲取了大量的灵感和经验。追根溯源,人工智能的发展离不开脑科学的研究。历史上,神经科学和人工智能两个领域一直存在交叉,对生物脑更好的理解,将对智能机器的建造起到及其重要的作用。
人工智能是模拟脑的一项主要应用,现在深度学习这种生物学简化的模型有其优点:具有很好的数学解释性,可以在现有的计算机架构(冯诺依曼)上实现,但是同样有瓶颈。如:计算代价高,不利于硬件实现等。尽管近年来深度学习和大数据的出现使得模型在一些任务上超越人类,但是对于人脑可以处理的复杂问题却无能为力,同时需要大量的计算资源和数据资源作为支撑。
相反人类大脑是一个极度优化的系统,它的工作耗能仅为25瓦,神经元的数量却在10的11次方的数量级上(其中的突触达到每个神经元10000个)。这样庞大的网络却有如此低的能耗,使得人类大脑在复杂问题的处理有绝对优势。
因此,人们希望能模仿人脑的工作方式来处理信息,构建神经网络模型,成为了模拟脑的关键。类脑计算这一个研究方向逐渐受到各个国家的重视,例如欧盟在2013年将“人脑计划”纳入其未来旗舰技术项目,2013年4月2日,美国总统奥巴马宣布启动名为“通过推动创新型神经技术开展大脑研究(Brain Research through Advancing Innovative Neurotechnologies)”计划,简称为脑科学研究计划(BRAIN),以及中国在2017年提出的“一体两翼”的脑科学与类脑科学研究,可以看到脑科学研究尤其是类脑计算将是继深度学习之后的又一大人工智能的突破点。目前许多国家专门成立脑科学研究中心,例如哥伦比亚大学的基础脑科学研究中心,清华大学类脑计算研究中心等。
类脑计算是什么?
类脑计算是近年来新兴的研究领域。它类似于人工智能、机器学习等领域,很难准确定义。目前,业界还没有普遍认可的类脑计算定义。类脑计算的描述性定义是“受人脑信息处理方式启发,以更通用的人工智能和高效智能边缘端、云端为目标构建信息系统的技术总称”。类脑计算整合脑科学、计算神经科学、认知科学甚至统计物理的知识来解决现有传统计算技术的一些问题,进而构建更通用、高效、智能的新型信息系统。
狭义的类脑计算是指神经形态计算,主要是开发神经形态芯片支持来自计算神经科学的脉冲神经网络(SNN)。广义的类脑计算还包括内存计算、忆阻器芯片甚至支持传统人工神经网络(ANN)的人工智能芯片的开发。所以类脑计算的研发和人工智能一样,需要从模型算法、软件、芯片、数据等各个方向协同。
类脑计算模型 突破神经科学与AI的鸿沟
目前,神经科学和人工智能之间存在巨大的差距。神经科学侧重于重建大脑内部的精细结构和生理细节,而人工智能侧重于通过数学抽象神经结构来实现高计算的高效率。
因此,如何将人工智能和神经科学交叉很好地融合成为一个艰巨的挑战。在类脑计算中,脉冲神经网络兼具生物合理性和计算效率,或能为人工智能提供新范式。简单来说,可以认为SNN = ANN+Neuronal Dynamics。如何找到一个兼具生物合理性和计算效率的脉冲神经元模型,如何建立脉冲神经元模型与AI任务之间的关系,是类脑计算领域的核心问题。
目前,SNN一般使用LIF神经元作为构建神经网络的基本单位。原因是LIF神经元是一个典型的综合模型,不仅具有IF模型的简单性,还能像H-H神经元模型一样模拟生物神经元丰富的生理特性。
众所周知,ANN和SNN各有特色和长处。ANN能够充分利用现有计算机的计算特性,以神经元状态表达信息,在空间领域传递信息,其主要运算是稠密矩阵向量乘法。相比之下,SNN使用脉冲序列在空间域和时间域表达信息和传递信息,其主要操作是事件驱动的稀疏加法,既有计算效率又有生物可信度。
类脑学习算法
与ANN训练相比,SNN的有效训练面临许多问题和挑战。如脉冲神经元内复杂的时空动态过程、脉冲神经元间传递的非导数脉冲信息、脉冲退化和训练精度损失等。目前,SNN训练方法主要包括无监督学习、间接监督学习和直接监督学习。这些训练方法试图从不同角度解决上述问题和挑战。
一、基于STDP的无监督学习
脉冲时间相关突触可塑性(STDP)是一种典型的无监督学习方法,可以控制大脑神经元之间权重连接的更新。一般来说,两个神经元的放电时间越接近,它们之间的绑定关系就越紧密。如上图所示,当两个神经元相继被激活时,顺序关系紧密的两边会加强连接,相反关系的两边会减弱连接。所以神经元之间往往建立单向的强化连接。
如果两个神经元同时被激活,就与共同的下游神经元形成了更紧密的联系,这样它们就是同级神经元,彼此之间存在间接关系。例如,由STDP规则和WTA规则组成的学习模型就是一种简单有效的无监督学习方法。具体来说,在输入层,画面被转换成脉冲序列(脉冲发射率与像素值成正比)。
神经元以全连接方式向前连接,接收兴奋输入,并根据STDP规则进行更新。它们与抑制性神经元向后一对一连接,产生侧抑制(即软WTA),脉冲发放率由适应性阈值平衡。
STDP模型通过调整局部规则来学习,易于在神经形态芯片上分布式实现,具有在线学习的能力。但局部突触可塑性不足以解释单个突触的变化如何协调神经系统整体目标的实现。这种无监督学习训练方法存在一些问题,如:难以获得高性能网络,无法用于大规模深度神经网络。
神经网络转换的SNN方法是指训练一个神经网络模型,然后将学习到的神经网络权重转移到具有相同结构的SNN。其基本思想是用SNN的平均脉率来近似神经网络中的ReLU激活值。
因此,人工神经网络转换的SNN方法在模型精度和模型模拟步骤T之间有一个折衷问题。该方法利用监督信号在原始神经网络模型中训练梯度反向传播,然后将其转化为SNN模型,因此是一种间接的监督学习。
人工神经网络转换的SNN方法具有很强的可扩展性,很容易将新的或大规模的人工神经网络结构转换成相应的SNN版本。一般情况下,模拟时间步长T越大,SNN的平均脉率越接近ANN中的激活值,两个模型之间的误差越小,从而实现ANN-SNN的几乎无损转换。但时间步长T过长会导致训练和推理效率下降,SNN的功耗优势也会降低。
直接训练算法的难点在于SNN复杂的时空动力学和脉冲发射的不可微性问题。将脉冲神经元的微分方程形式转化为便于计算机模拟的差分方程形式,同时沿空间和时间维度扩展信息,采用脉冲梯度近似法。由于近似替代函数保留了脉冲发射的“非线性特性”,其梯度近似曲线具有一定的鲁棒性。
STBP虽然解决了SNN网络反向传播训练的梯度替代问题,但只能训练不超过10层的小规模网络。主要问题是:网络一旦深入,与ANN相比,脉冲神经元的二元激活方式及其复杂的时空动态更容易造成网络的梯度消失或爆炸。
通过进一步分析SNN的时空动态特性可以看出,为了获得合适的网络脉冲率,在神经元膜电位和阈值之间建立平衡对于网络的性能是非常重要的。过低的分发率可能导致有效信息不足,而过高的分发率会降低SNN网络对输入的区分度。
因此,结合脉冲神经元阈值的BN算法,即阈值依赖BN方法(TDBN),缓解了SNN的规模瓶颈。首次将SNN的网络规模提升到50层,在ImageNet等大规模数据集上取得具有竞争力的性能,并证明该方法可以缓解深度SNN的梯度消失和爆炸。
虽然TDBN增加了SNN的规模,但与传统的数百层深度网络相比,其性能仍不足以在大规模数据集上与ANN抗衡。为了进一步提高SNN的网络表达能力,扩大网络规模,提高任务性能,借鉴经典的ResNet结构似乎是一种可行的方法。
但是将ResNet结构直接复制到SNN (Vanilla Res-SNN)中存在脉冲退化的问题,即网络越深,精度越低。因此,一种新的Ms-Rse-SNN结构被提出,其中LIF神经元被置于残余块中,不同层神经元的膜电位被缩短。利用动态均匀性理论证明该结构不存在脉冲退化问题。在较大范围内解决了大规模SNN直接训练问题(482层CIFAR-10,104层ImageNet),后者取得76%分类准确率TOP-1的SOTA结果。
此外,根据SNN处理数据的不同,采用数据相关的处理模式可以为直接训练SNN的某些任务带来额外的性能增益。如:在神经形态学视觉的任务中,事件流数据往往是稀疏和不均匀的。
根据事件流在不同时刻的输入信噪比,结合时间注意力机制,使用SNN以数据驱动的方式处理任务,进一步降低网络能耗,提高性能。实验结果表明,即使去掉一半的输入,SNN的性能也能基本保持不变或略有提高。总之,SNN已经进入大规模深度模型和算法的开发阶段,并将进一步应用于传统人工智能领域的诸多下游任务。
类脑计算软件
类脑计算软件框架和工具通常包括三个方面:神经形态学芯片工具链、神经系统仿真模拟和SNN学习框架。
目前神经芯片的工具链还处于早期阶段,存在软硬件耦合紧密、通用性和自动化程度低、使用便捷性差等诸多问题。神经系统软件模拟框架可以详细模拟生物神经网络,但需要用户具有一定的计算神经科学基础。
现有仿真工具软件框架通常采用C语言开发,缺乏跨平台能力和对各种后端硬件的深度优化支持。而且这些软件通常是为CPU、GPU等商用硬件设计,不支持不同类型的神经形态芯片。SNN学习框架的目标是结合深度学习框架开发的便利和SNN特点,充分利用深度学习领域的各种资源,加速SNN网络训练。相关工作基本处于早期且不够稳定,无法适应不同的软硬件接口。即使是基于GPU架构开发,也很难充分利用SNN自身的特点来加速。
类脑计算芯片
从功能上看,类脑芯片主要四类:
人工神经网络的深度学习加速器(TPU、寒武纪、华为升腾等);
脉冲神经网络的神经形态学芯片(TrueNorth、Loihi、达尔文等芯片);
人工/脉冲神经网络的异构融合芯片(天机芯片);
大脑模拟芯片(SpiNNaker,ROLLS,Loihi等。)支持以低延迟、高动态的神经形态学相机为代表的神经元编程和感知芯片。
类脑芯片的架构包括主流深度学习加速器采用的存储-存储分离架构,主流众核分散架构芯片的近存计算架构,以及内存计算芯片和忆阻器芯片采用的存储-计算一体化架构。从芯片设计的角度来看,路由器连接的多核架构芯片具有更好的可扩展性,多个功能核独立工作,核之间定期同步共享数据。因此可以支持更大网络规模和更广应用范围的SNN。
使用纯数字信号的小规模单核芯片可以通过内存计算进行矩阵向量乘法,具有同步和异步设计流程,往往具有更高的能效和更低的静态功耗,更便于技术移植,但神经元和突触的规模有限。数模混合的小规模单核芯片采用数字异步脉冲路由,使用内存中数字计算方法进行矩阵向量乘法,使用模拟膜电位进行激活和更新,因此能效最高,但也存在神经元和突触数量少、设计不方便等问题。
类脑计算数据
众所周知,深度学习发展四要素为算法、算力、开发工具以及大规模的数据。在深度学习领域,成百上千个开源数据集覆盖分类、检测、跟踪、自然语言等,极大地促进了深度学习的繁荣。
相比之下,类脑数据集十分匮乏,现有的数据集主要包括四类:
一、通过转换算法将ANN数据集转变为事件信号数据集,典型数据集包括基于ImageNet转换而来的ES-ImageNet,基于UCF101转化的事件信号数据集ES-UCF101,基于BDD100K转化的事件信号数据集BDD100K-DVS等;
二、利用神经形态相机DVS将图像或视频数据库转化为事件数据集,比如N-MNIST、CIFA10-DVS等数据集;
三、通过神经形态相机DVS直接拍摄获取的数据集,比如DVS-Gesture、PKU-DDD17-CAR、Gen1 Detection、1Mpx Detection、PKU-DAVIS-SOD等;
四、其它类型的类脑数据集,比如EEG数据集、脑机接口(BCI)相关的数据集、帧数据和事件的混合数据等。
类脑计算的未来:在学科交叉与突破创新中蓬勃发展
模型算法方面
不仅可以通过增加模型参数、网络深度或宽度使得SNN模型变大变强,更重要的提供向内增加神经元复杂程度的能力支撑,缩减神经科学与人工智能之间存在的鸿沟。因此,构造包含更丰富动力学的神经元模型、神经网络及对应的算法是未来的重要方向。
类脑软件方面
如何提升SNN的研究生态是未来发展的必经之路,重要的方向包括神经形态工具链的软硬件去耦合、SNN训练加速框架及高效的神经系统仿真和模拟等。在类脑数据方面,如何构建具备稀疏事件特征、具备丰富的时间尺度/空间尺度特征的大规模多模态混合数据集十分重要。
类脑芯片方面
主要关注神经形态芯片如何进行更高效的感知、存储和计算,如何构建融合感存算一体化的计算系统。研究更高效的芯片架构、研制更具有类脑元素的芯片功能也是未来发展的重要方向。芯片架构上可以探索类脑芯片的分层存储体系、高效在线学习架构及与其它硬件平台的高效兼容能力;芯片功能上可以探索如何融入更多的算子支持比如微分方程、线性方程求解,以及如何在算子层面上支持更类脑的神经元模型和网络结构等。
类脑系统的总体框架包括类脑的模型、算法、软件以及芯片,并结合丰富类脑数据构造的计算系统,在人工智能领域可以朝着高效云端/边缘端类脑计算系统的构造方向发展,在脑科学领域可利用现有的超算服务器集群进行神经动力学的仿真和模拟,构建更为复杂的脑仿真和神经模拟系统。
中国类脑计算的研究成果
我国的类脑智能研究水平处于国际前沿。2016年,“脑科学与类脑科学研究”(简称“中国脑计划”)被作为连接脑科学和信息科学的桥梁正式提出。此外,多所高校也积极参与类脑计算的研究。其中,中科院开发的类脑认知引擎平台能够模仿哺乳动物的大脑,实现多感觉融合、决策等多种功能。
中国科学家研制出新型类脑计算芯片
我国科学家研制成功面向人工通用智能的新型类脑计算芯片——“天机芯”芯片,而且成功在无人驾驶自行车上进行了实验。清华大学类脑计算研究中心施路平教授团队的相关论文《面向人工通用智能的异构“天机芯”芯片架构》,曾在国际期刊《自然》杂志以封面文章的形式发表。
世界首款多阵列忆阻器存算一体系统诞生
清华大学微电子所、未来芯片技术高精尖创新中心钱鹤、吴华强教授团队,与合作者共同研发出一款基于多个忆阻器阵列的存算一体系统,在处理卷积神经网络时的能效,比图形处理器芯片高两个数量级,大幅提升计算设备的算力,且比传统芯片的功耗降低100倍,相关成果发表于《自然》。
我科学家首次提出“类脑计算完备性”
清华大学计算机系张悠慧团队和精仪系施路平团队与合作者在《自然》杂志发表题为《一种类脑计算系统层次结构》的论文,填补了类脑计算系统领域完备性理论与相应的类脑计算系统层次结构方面的空白。
蓝海大脑液冷散热服务器可搭建NVIDIA 4 × A100 / 3090 / P6000 / RTX6000,并将液冷冷板固定在服务器的主要发热器件上,依靠流经冷板的液体将热量带走达到散热目的。冷板液冷解决了服务器里发热量大的器件的散热,其他散热器件还得依靠风冷。所以采用冷板式液冷的服务器也称为气液双通道服务器。冷板的液体不接触被冷却器件,中间采用导热板传热,安全性高。
蓝海大脑拥有完全自主研发和灵活定制能力,是国内最早从事液冷GPU服务器的厂商之一,并且在独到的加固、保密和安全等产品技术领域有深厚的积累。蓝海大脑端到端的解决方案,赋能AI、云计算、大数据、5G、区块链、元宇宙等新兴技术创新和应用,积极为中国类脑计算、新基建、信创、东数西算、社会经济的数字化和智能化转型升级提供坚实的算力保证。同时重视全球合作共赢,与英特尔、英伟达、希捷、华为、飞腾等国内外产业链伙伴保持紧密的战略合作关系,加速产品方案的适配和应用场景拓展,更好地为各行各业服务。
蓝海大脑 京ICP备18017748号-1