编辑推荐:
Jiemin Ji|Liqiang He|Jun Li南京航空航天大学,中国江苏省南京市将军大道40号,211100摘要脉冲神经网络(SNNs)由于其受大脑启发的特性和能效优势,已成为一种有前景的计算架构。尽管注意力机制可以提高SNNs的性能,但其二次方的计算成本可能会抵消节能效
Jiemin Ji|Liqiang He|Jun Li
南京航空航天大学,中国江苏省南京市将军大道40号,211100
摘要
脉冲神经网络(SNNs)由于其受大脑启发的特性和能效优势,已成为一种有前景的计算架构。尽管注意力机制可以提高SNNs的性能,但其二次方的计算成本可能会抵消节能效果。在本文中,我们介绍了SNNs中一种新颖且高效的替代方案——SpikeMixer。SpikeMixer利用多层感知器(MLP)-混合器架构来有效捕捉脉冲神经网络中的长距离依赖关系。特别是,SpikeMixer通过动态混合和轴向混合,在两个正交的轴向方向上提供内容自适应和互补的特征。在多个静态和神经形态学基准数据集上的广泛评估验证了我们方法的效率和有效性。
引言
脉冲神经网络(SNNs)作为神经形态计算领域的一个有前景的范式,结合了生物学上合理的脉冲神经元模型和能效高的二进制计算。许多方法通过借鉴人工神经网络(ANNs)的见解来增强SNNs的能力[1]、[2]、[3]、[4]、[5]、[6]。一种方法是将成熟的ANN架构集成到SNNs中,例如SpikeResNet [1]和Spike图神经网络[2]。另一种方法是将成功的ANN应用适应到SNN领域,例如用于实时物体检测的Spike-YOLO [3]和用于SNNs中强化学习的Spike延迟奖励神经网络[7]。
特别是,将自注意力机制集成到SNN架构中既带来了挑战也带来了机遇。Spikeformer [8]通过将查询(Query)、键(Key)和值(Value)矩阵限制为二进制脉冲形式(0-1值)开创了脉冲自注意力(SSA)。这种脉冲形式在两个方面消除了传统的softmax归一化:(1)非负脉冲输入本质上保持了注意力矩阵的正性;(2)当序列长度超过头部维度时,稀疏的脉冲模式允许线性分解。然而,自注意力的基本二次方缩放问题仍然存在[9],这在SNNs的能效优势和处理长脉冲序列所需的计算需求之间造成了矛盾。
最近,MLP-Mixer架构[10]作为一种有前景的替代方案出现,它在保持必要的长距离依赖关系的同时解决了计算效率瓶颈问题。该范式通过利用纯MLP架构来融合特征,从而实现了其优势。DynaMixer [11]进一步增强了空间和通道维度上的特征融合。通过使用通过可学习的令牌投影生成的输入自适应权重,DynaMixer在保持MLP-Mixer结构简洁性的同时实现了数据依赖的空间-通道混合。
在本文中,我们提出了SpikeMixer,这是一种将MLP混合器结构整合到SNNs中的新型模型。具体来说,SpikeMixer通过两项协同创新增强了脉冲特征融合:1)动态混合:SpikeMixer根据二进制脉冲特征调整其混合权重。通过动态调整膜电位衍生的权重,SpikeMixer在减少注意力机制的计算负担的同时保持了长距离连接;2)轴向混合:我们在两个正交的空间方向上分别进行水平动态混合和垂直动态混合。轴向混合基于这样一个归纳偏见:来自正交方向的图像块之间的信息冗余较少,从而继承了正交方向的知识并忽略了不相关的信息。上述两点有助于SpikeMixer实现更高的准确性和能效。
SpikeMixer的完整结构如图1所示。SpikeMixer架构从补丁生成开始,包括一组卷积层、批量归一化和脉冲神经元,以生成具有时间动态的脉冲数据。补丁生成之后,使用一组SpikeMixerBlocks进行脉冲特征融合。在每个SpikeMixerBlock中,我们利用纯MLP架构生成动态的脉冲自适应权重矩阵。动态轴向混合在垂直和水平方向上应用,然后通过逐元素加法进行特征融合。接着对融合后的特征执行SNN的LIF动态控制脉冲发射。最后,使用分类头进行预测。
我们在静态和神经形态数据集上进行了全面实验,并且性能超过了现有的SNN方法。对于静态数据集,在Tiny-imagenet上提高了5.8%的准确率,在CIFAR10上提高了0.6%的准确率,在CIFAR100上提高了2.6%的准确率。对于神经形态数据集,在CIFAR10-DVS上提高了7.7%的准确率。SpikeMixer实现了线性复杂度' role="presentation">,在所有数据集中都取得了这一效果。
我们的主要贡献总结如下:
- •
我们提出了SpikeMixer,据我们所知,这是第一个将MLP混合器架构整合到脉冲神经网络(SNN)框架中的模型。
- •
我们提出了新颖的动态轴向混合技术,保持了长距离连接并继承了正交空间方向的知识。动态轴向混合作为自注意力机制的一种能效更高的替代方案。
- •
在静态和神经形态数据集上进行的全面实验展示了SpikeMixer的性能。我们还进行了深入分析,以验证所提出架构的效率和有效性。
本文的其余部分组织如下:第2节介绍初步知识和相关工作,第3节详细阐述架构设计,第4节介绍实验结果,第5节得出结论。
章节片段
脉冲神经网络
第三代脉冲神经网络忠实反映了神经元的树突轴突连接和通信模式。研究人员基于动物研究的实验数据构建了神经动态模型,捕捉神经元对刺激的反应。一个著名的例子是Leaky Integrate-and-Fire(LIF)模型,这是一个简化但具有影响力的框架,抽象了神经元行为的关键方面。虽然LIF模型在生物学细节上不如更高阶的模型详细,但它
方法
本节描述了SpikeMixer的架构,这是一种基于MLP的网络,它在保持模型性能的同时提高了计算效率。我们采用了动态轴向混合策略,利用自适应权重矩阵通过高效的MLP操作来维持长距离依赖关系。特别是,我们在水平和垂直方向上进行动态混合。动态轴的设计源于一个基本观察:正交图像
实验
我们在三个静态数据集(Tiny-ImageNet、CIFAR-10和CIFAR-100)和两个神经形态数据集(CIFAR10-DVS和DVS128Gesture)上进行了基准测试,并基于参数数量、操作(包括FLOPs和SOPs)和能耗进行了能效分析。
设置所有实验都在8个' role="presentation"> Nvidia 3090 GPU上进行。对于所有数据集,我们使用AdamW [33]作为优化器。我们将初始学习率设置为5e-4,热身学习率设置为1e-5,热身周期为
结论
在这项工作中,我们提出了SpikeMixer,作为自注意力机制的替代方案。SpikeMixer利用纯MLP架构进行动态混合和轴向混合。特别是,动态混合通过使用内容自适应权重矩阵来执行令牌混合,而轴向混合在水平和垂直方向上分解令牌以减少信息冗余。动态混合通过利用纯MLP架构降低了计算复杂性,而轴向混合减少了参数数量
CRediT作者贡献声明
Jiemin Ji:撰写——原始草稿,验证,软件,方法论,形式分析。Liqiang He:验证,软件,方法论。Jun Li:撰写——审稿与编辑,监督,资源管理,项目协调,概念化。
利益冲突声明
作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。
Jiemin Ji于2023年从中国南京航空航天大学(NUAA)获得计算机科学硕士学位。他在硕士期间的研究集中在异常检测和可解释机器学习模型上。他目前的研究兴趣在于可解释人工智能(XAI)和神经形态计算领域,特别是探索脉冲神经网络(SNNs)的效率和可解释性。