ASAC-Net：一种新颖的多模态对齐互补融合框架，用于脑电图（EEG）与近红外光谱（fNIRS）结合的情感识别

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Information Fusion》：ASAC-Net: A Novel Multimodal Alignment-Complementary Fusion Framework for EEG-fNIRS Emotion Recognition

【字体：大中小】 时间：2026年04月09日 来源：Information Fusion 15.5

编辑推荐：

　　情绪识别多模态融合研究：构建VR驱动的EEG-fNIRS数据集并提出ASAC-Net模型，通过自适应图卷积提取模内空间特征，对比学习对齐跨模态特征，Cross-Transformer增强模态互补性，动态路由实现跨个体情绪识别，在自建数据集和三个公开数据集上均优于单模态及现有多模态方法，可视化验证了模型与神经科学的一致性。

Kaining Fang|Jing Qu|Zixing Ding|Junhang Ding|Lingguo Bu

山东大学与国立台湾科技大学联合人工智能研究中心，中国济南，250101

摘要

脑机接口（BCI）技术使得脑电图（EEG）在情绪识别中得到广泛应用，因为它可以直接捕捉大脑神经活动并反映情绪状态。然而，单模态EEG提供的信息有限，因此引入了功能性近红外光谱（fNIRS）通过多模态融合来弥补单模态数据的局限性，从而提高识别性能。在这项研究中，我们首先使用虚拟现实（VR）主动交互范式构建了一个包含21名参与者的EEG-fNIRS情绪数据集。然后，我们提出了一种基于自适应空间对齐-互补网络（ASAC-Net）的EEG-fNIRS情绪识别方法。具体来说，为了从每种模态中提取空间特征，我们引入了基于自适应图卷积的模内编码模块。在融合阶段，对比学习对齐EEG和fNIRS的表示，而通过相邻聚合位置编码增强的跨模态变换器捕捉互补特征。最后，使用动态路由机制进行情绪分类。实验结果表明，所提出的模型在自建数据集上的跨受试者情绪识别准确率达到80.52%，优于现有的多模态基线方法。消融实验验证了每个模块的有效性。此外，在三个公开的单模态数据集上的广泛评估表明，我们的方法始终优于多种现有的单模态基线方法。在可解释性方面，模型学习到的大脑连接模式与额叶和枕叶区域的神经科学证据一致。此外，跨模态注意力揭示了不同情绪下大脑区域的差异性参与。

引言

情绪识别作为脑科学与人工智能交叉领域的核心研究方向，在人机交互和心理健康护理中显示出显著的应用潜力和科学重要性。与面部表情和语调等传统情绪线索不同，这些线索容易被主观伪装[1]，而脑电图（EEG）和功能性近红外光谱（fNIRS）等神经生理信号直接来源于大脑的神经活动和代谢过程，能够更真实客观地反映受试者的真实情绪状态。随着深度学习的发展，许多基于深度网络的方法被开发出来，显著提高了分类性能，并加速了情绪识别向实际应用的转化[2]。

在情绪识别领域，基于单模态生理信号的研究已经建立了坚实的基础。多项研究构建并公开发布了基于EEG的情绪数据集，还有一些研究证明了fNIRS在情绪分类中的可行性[3]、[4]。还有研究探索了使用眼电图（EOG）等外周信号进行情绪分析[5]。从神经生理学的角度来看，EEG以毫秒级的时间分辨率捕捉神经元同步放电，而fNIRS则测量与氧合和脱氧血红蛋白浓度相关的血流动力学变化，提供厘米级的空间分辨率[6]。这些模态在时间和空间保真度上的互补特性为克服单模态系统的局限性提供了有希望的途径[7]。然而，目前大多数研究仍局限于单模态范式，且缺乏开放获取的标准化多模态EEG-fNIRS情绪数据集。此外，现有的情绪诱导协议通常依赖于静态图像或预录视频等被动刺激，这些方法导致参与者参与度低、沉浸感差、交互性低[8]，从而无法引发具有高生态有效性的情绪反应[9]，使得生理数据可能无法准确反映现实生活中的情感体验，从而影响模型在实际场景中的泛化能力。因此，改进情绪诱导方法以获取高质量、生态有效性的多模态EEG-fNIRS数据对于提高情绪识别研究的可靠性和转化潜力至关重要。

近年来，深度学习技术在情绪识别中得到了广泛应用。然而，大多数现有工作仍然集中在单模态EEG分析上。在多模态融合中，大多数研究将EEG与眼动或其他外周生理信号结合[10]。然而，很少有研究探索EEG和fNIRS的整合[11]。此外，对于EEG和fNIRS之间的内在时空互补性以及有效跨模态对齐所需的机制，目前的研究还不够充分。当前的融合策略通常采用浅层方法，如通过特征连接进行早期融合或在决策层面进行后期融合，这些方法未能充分利用模态间时间和空间演变的协同动态，并通常忽略了它们固有的时空异质性[12]。同时，随着模型复杂性的增加，深度学习算法的可解释性往往受到限制。很难理解模型如何权衡和整合来自不同模态的信息，也无法明确识别在情绪分类中起关键作用的生理特征[13]。这些限制严重阻碍了EEG-fNIRS深度融合模型的发展和性能提升，以及其在科学研究和临床应用中的可信度和转化潜力。

为了解决这些问题，本研究引入了一个通过沉浸式VR交互场景获得的新颖EEG-fNIRS多模态情绪数据集。基于这个数据集，我们提出了一个多模态情绪识别框架，旨在增强EEG和fNIRS之间的特征互补性和跨模态对齐。具体来说，使用可学习的切比雪夫图卷积提取模内空间嵌入。随后，应用对比学习来强制跨模态特征空间的对齐。然后，利用跨模态变换器对动态模间依赖性进行建模，并使用动态路由机制进行分类。本工作的主要贡献总结如下：

1.

我们构建了一个包含21名参与者的多模态EEG-fNIRS数据集，基于两种不同的VR交互场景进行情绪诱导。

2.

我们提出了自适应空间对齐-互补网络（ASAC-Net），它包括三个关键阶段：模内空间特征编码、模间融合和基于动态路由的分类。

3.

我们提出了一种新的融合模型，该模型具有基于对比学习的模态对齐模块和基于位置编码的增强型跨模态变换器模态互补模块。位置编码是从模内模块中学到的邻接矩阵中聚合得到的。

4.

我们在自建数据集和三个公开可用的EEG单模态数据集上进行了广泛的跨受试者情绪识别实验，并取得了出色的性能。此外，我们可视化了邻接矩阵和跨模态注意力权重以提高模型的可解释性。

部分摘录

情绪诱导方法和情绪数据集

基于生理信号的情绪数据集的构建为情绪识别研究奠定了基础，其中基于EEG的数据集最为成熟。DEAP数据集使用音乐视频来诱导情绪，同时记录32通道的EEG和外周生理信号，并提供与情绪价值（valence）和唤醒（arousal）相关的定量标签[14]。SEED数据集专门为 Chinese 参与者设计，使用电影片段作为情绪刺激

材料

我们使用了两个数据集进行情绪识别：一个自收集的EEG-fNIRS多模态数据集和一个公开可用的EEG单模态数据集，以便进行全面的比较分析。

方法

本研究提出了一种多模态情绪识别融合框架——自适应空间对齐-互补网络（ASAC-Net）。ASAC-Net包括三个核心组件：模内自适应空间编码器（IASE）、模间对齐和互补模块（IACM）以及动态路由分类器（DRC）。首先，在IASE中使用了具有可学习邻接矩阵的图卷积网络来适应性地建模EEG和fNIRS内的功能连接模式

实验设置

在本研究中，分别在公开数据集和自建的Emotion-VR数据集上采用了留一受试者法的交叉验证策略[44]。这种跨受试者评估方法更接近实际应用场景，有效地反映了模型对未见受试者的泛化能力。通过平均每个折叠的性能指标来评估所提出模型的整体性能水平。

超参数设置

本研究实现了EEG-fNIRS多模态

讨论

本研究引入了一种基于VR的主动交互范式，用于同步采集EEG-fNIRS数据。与单模态EEG或EEG与眼动和外围生理信号的多模态融合相比，EEG和fNIRS的结合更好地反映了大脑处理情绪的方式。VR范式的引入缓解了传统图片和视频刺激所导致的“沉浸感不足和生态有效性低”的问题。

结论

在这项研究中，我们构建了一个基于VR诱导的EEG-fNIRS的多模态情绪数据集，该数据集通过VR场景有效诱导了两种典型情绪，并为多模态情绪识别算法的开发提供了可靠的数据支持。在此基础上，我们提出了一个用于跨受试者情绪识别的自适应空间对齐-互补网络（ASAC-Net）。该模型在单模态和多模态情绪识别任务中均表现出色

CRediT作者贡献声明

Kaining Fang：撰写——原始草稿，可视化，数据管理。Jing Qu：撰写——审稿与编辑，撰写——原始草稿，方法论。Zixing Ding：撰写——审稿与编辑，概念化。Junhang Ding：撰写——审稿与编辑，监督。Lingguo Bu：撰写——审稿与编辑，资源获取。

利益冲突声明

作者声明他们没有已知的可能会影响本文所述工作的财务利益或个人关系

联系信箱：

粤ICP备09063491号

摘要

引言