动态融合感知图卷积神经网络:用于对话中的多模态情感识别

《Knowledge-Based Systems》:Dynamic Fusion-Aware Graph Convolutional Neural Network for Multimodal Emotion Recognition in Conversations

【字体: 时间:2026年04月10日 来源:Knowledge-Based Systems 7.6

编辑推荐:

  多模态情感识别在对话中动态融合多源特征以提升分类效果。DF-GCN模型创新性地将常微分方程融入图卷积网络,通过全局信息向量引导动态融合权重,解决传统方法静态参数限制特定情感类别识别的难题。实验表明该方法在IEMOCAP和MELD数据集上显著优于基线模型,首次实现推理阶段自适应调整不同情感类别的融合权重。

  
Tao Meng|Weilun Tang|Yuntao Shou|Yilong Tan|Jun Zhou|Wei Ai|Keqin Li
中国湖南省长沙市中南林业科技大学计算机与数学学院,邮编410004

摘要

对话中的多模态情感识别(MERC)旨在从多种模态(如文本、音频、图像等)中识别和理解说话者在交流过程中表达的情感。现有研究表明,图卷积网络(GCN)通过建模说话者之间的依赖关系可以提高MERC的性能。然而,现有方法通常使用固定参数来处理不同情感类型的多模态特征,忽略了不同模态融合的动态性,这迫使模型在多个情感类别之间平衡性能,从而限制了模型对某些特定情感的识别能力。为此,我们提出了一种动态融合感知图卷积神经网络(DF-GCN),以实现对对话中多模态情感特征的鲁棒识别。具体而言,DF-GCN将常微分方程集成到图卷积网络(GCN)中,以捕捉交流网络中情感依赖关系的动态特性,并利用话语的全局信息向量(GIV)生成的提示来指导多模态特征的动态融合。这使得我们的模型在处理每个话语特征时能够动态地调整参数,从而在推理阶段为不同的情感类别配备不同的网络参数,实现更灵活的情感分类并增强模型的泛化能力。在两个公开的多模态对话数据集上进行的全面实验表明,所提出的DF-GCN模型表现出优越的性能,显著受益于引入的动态融合机制。据我们所知,这是第一个在推理过程中为不同情感类别自适应分配不同融合权重的框架,从而实现了更有效的多模态信息整合。我们的代码可在此处获取:https://github.com/yuntaoshou/DFGCN

部分内容摘录

引言

对话中的多模态情感识别(MERC)旨在利用对话中的多模态信息(如文本、音频、视频等)来理解和识别说话者的情绪状态[1]、[2]、[3]。由于MERC在意见挖掘[4]、[5]、医疗保健[6]和构建共情对话系统[7]等领域的广泛应用,它已成为一个重要的研究课题。MERC研究不仅帮助我们深入理解

多模态情感识别

对话中的多模态情感识别(MERC)需要处理和分析语音、面部表情和文本数据,以辨别和理解人类的情感状态[17] [18]。在本文中,我们将MERC方法大致分为三类:循环神经网络(RNNs)、Transformers和GCN。
基于RNN的MERC方法主要通过循环记忆单元从多模态特征中提取上下文语义信息。例如,DialogueRNN [19]考虑了情感在

图神经网络

考虑一个图 ,其中 V 表示节点集,E 表示边集。目标是为图中的每个节点生成有意义的表示。节点 V 由存储在节点特征矩阵中的特征集表示XR|V|×d,其中 d 表示特征向量的维度。X 的每一行对应于节点 vV 的特征表示。为了建模图中节点之间的连接性,我们使用二进制邻接矩阵AR|V|×|V|

方法论

所提出的DF-GCN包含五个模块:多模态特征编码、静态图卷积、全局信息向量生成、动态图卷积和情感分类。所提出的DF-GCN的详细架构如图2所示。

使用的数据库

IEMOCAP [42] 和 MELD [43] 是MERC领域最常用的两个数据库。它们被广泛用于评估模型的有效性。
IEMOCAP数据集由南加州大学的SAIL实验室收集。这是一个多模态对话数据集,包含大约12小时的多模态数据,如视频、音频、面部动作捕捉和转录文本。这些数据是通过演员的即兴或脚本对话录制的。数据带有注释

结论

本文提出了DF-GCN,这是一个用于识别对话中多模态情感特征的鲁棒框架。具体而言,DF-GCN将常微分方程注入GCN中,以探索话语交互网络中情感依赖关系的动态特性,并利用话语的全局信息向量生成的提示来指导多模态特征的动态融合。这使得我们的模型在处理每个话语特征时能够动态地调整参数,从而

CRediT作者贡献声明

Tao Meng:概念化、方法论、研究、数据整理、初稿撰写。Weilun Tang:监督、研究与审稿。Yuntao Shou:监督、研究、撰写 - 审稿与编辑。Yilong Tan:撰写 - 审稿与编辑。Jun Zhou:监督、研究、撰写 - 审稿与编辑。Wei Ai:监督、研究、撰写 - 审稿与编辑。Keqin Li:监督、研究、撰写 - 审稿与编辑。

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能会影响本文所述的工作。

致谢

作者衷心感谢匿名审稿人和AE们的辛勤工作以及宝贵的建议,这些工作极大地帮助改进了本文。本项工作得到了中国国家自然科学基金(项目编号69189338)、湖南省优秀青年学者计划(项目编号22B0275)以及复杂网络中局部社区结构检测算法研究项目(项目编号2020YJ009)的支持。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号