基于双向跨模态交互与文本引导融合的多模态情感分析研究

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Electronics》：Research on Multimodal Sentiment Analysis Based on Bidirectional Cross-Modal Interaction and Text-Guided Fusion

【字体：大中小】 时间：2026年06月19日 来源：Electronics 2.6

编辑推荐：

　　多模态情感分析（Multimodal Sentiment Analysis, MSA）已成为人工智能领域的关键研究方向，其目标是通过联合建模文本、音频和视觉信息来预测情感极性或强度。然而，传统方法由于模态间固有异质性、语义表征差异以及跨模态交互不足，仍面临显著

多模态情感分析（Multimodal Sentiment Analysis, MSA）已成为人工智能领域的关键研究方向，其目标是通过联合建模文本、音频和视觉信息来预测情感极性或强度。然而，传统方法由于模态间固有异质性、语义表征差异以及跨模态交互不足，仍面临显著挑战。为解决这些问题，本文提出了一种融合双向跨模态注意力与多层级约束优化的多模态情感分类模型。具体而言，研究人员首先构建了一个结合双向长短期记忆网络（BiLSTM）与 transformer 架构的统一多模态特征编码（Unified Multimodal Feature Encoding, UMFE）模块，用于对文本、音频和视觉模态进行联合建模并提取稳健的单模态表征，从而增强表征的鲁棒性与判别能力。在此基础上，研究人员引入双向跨模态注意力机制，该机制在不同模态之间执行 Query–Key 注意力，使每个模态能够有选择地聚合互补信息并捕获跨模态语义依赖关系。此外，跨模态再融合 transformer（HMRT）模块以文本模态为主导，引导跨模态交互后高层语义特征的深度融合，生成紧凑统一的表示。最后，基于不确定性（uncertainty）的自适应加权多任务联合优化框架被用于动态平衡单模态监督损失、跨模态一致性损失和情感分类损失，从而有助于提升表征学习能力与泛化能力。

该论文发表于《Electronics》，聚焦多模态情感分析（Multimodal Sentiment Analysis, MSA）中的核心瓶颈：文本、音频与视觉三类模态在结构上具有显著异质性，在语义表达上也并不完全一致，因此仅依赖简单拼接或浅层融合往往难以有效刻画真实情感状态。现有方法虽然已经广泛采用循环神经网络、transformer、图模型或文本主导融合策略，但仍普遍存在三方面问题：其一，浅层跨模态融合难以充分捕获复杂语义关系；其二，很多注意力机制主要停留在成对交互或单向文本主导层面，模态之间的信息交换仍不充分；其三，单模态表征多依赖最终预测损失进行间接优化，针对跨模态语义一致性与单模态判别性的显式约束仍较有限。基于这些问题，研究人员提出双向跨模态 transformer 网络（Bidirectional Cross-Modal Transformer Network, BCTN），旨在通过统一编码、双向交互、文本引导再融合以及多任务约束优化，提升多模态情感识别与情感强度预测性能。

研究人员在 CMU-MOSI、CMU-MOSEI 与 CH-SIMS 三个公开数据集上系统评估了该模型。整体框架首先通过统一多模态特征编码（UMFE）模块获得各模态时间表征，随后利用双向跨模态注意力（Bi-Cross-Attn）促进文本、音频、视觉之间的双向信息流动，再借助跨模态再融合 transformer（HMRT）在文本引导下对高层交互特征进行深层整合，最后结合情感分类损失、跨模态一致性损失与单模态监督损失，在基于同方差不确定性（homoscedastic uncertainty）的自适应加权框架下进行联合优化。实验结果表明，BCTN 在多个评估指标上取得了具有竞争力的表现，尤其在中文数据集 CH-SIMS 上表现出较强优势，说明双向跨模态交互与再融合设计有助于处理情感线索冲突或模糊的复杂场景。研究的意义在于，其为多模态情感分析提供了一个兼顾模态内时序建模、模态间语义对齐与高层特征融合的统一框架，并展示了文本引导深融合与多层级约束优化的协同价值。

研究人员采用的主要技术方法包括：以 BERT-base-uncased 提取文本上下文化嵌入，以 Librosa 提取 74 维音频特征，以 OpenFace 提取 35 维视觉表情相关特征，并基于转录文本时间戳进行序列对齐；在模型层面构建 UMFE 模块，通过 BiLSTM、并行 Conv1D 与 transformer 获取统一单模态时序特征；设计 Bi-Cross-Attn 模块实现文本、音频、视觉的双向 Query–Key–Value 跨模态交互；进一步以 HMRT 模块在文本主导下完成高维语义再融合，并结合自适应门控机制调节各模态贡献；样本队列来源于公开数据集 CMU-MOSI、CMU-MOSEI 与 CH-SIMS。

在研究结果部分，论文依次从多个子部分验证了模型的有效性。

4.1. Datasets
研究人员选用三个公开多模态情感分析数据集进行评估。CMU-MOSI 包含 93 个视频与 2199 个观点片段，情感分数范围为 [?3, +3]；CMU-MOSEI 包含 1000 余个视频与 23,453 个标注片段，情感分数同样位于 [?3, +3]；CH-SIMS 为中文数据集，含 2281 个视频片段，情感分数位于 [?1, +1]。这一数据设置说明研究同时覆盖了英文与中文场景，以及不同规模和复杂度的情感表达任务。

4.2. Evaluation Metrics
研究人员设置了回归与分类两类任务。回归指标采用平均绝对误差（Mean Absolute Error, MAE）与皮尔逊相关系数（Pearson Correlation Coefficient, Corr）；分类指标采用 F1 值、二分类准确率（Acc2）与七分类准确率（Acc7）。其中 Acc2 与 F1 又区分负/非负和负/正两种评价设置。通过五次不同随机种子重复实验取均值 ± 标准差，增强了结果比较的稳定性。

4.3. Experimental Setup
实验在配备 NVIDIA GeForce RTX 4090 的服务器上完成，模型基于 PyTorch 2.3.0 实现，并采用 Adam 优化器。该部分主要说明研究具有完整且统一的实验实现条件，为后续结果比较提供了技术基础。

4.4. Baselines
研究人员将 BCTN 与 14 种先进基线方法进行比较，包括 MISA、TETFN、MFM、Self-MM、MMIM、MAG-Bert、MulT、RAVEN、LMF、TFN、ICCN、ALMT、DEVA 和 DLF，覆盖模态不变表示学习、张量融合、文本增强 transformer、自监督多任务学习和文本引导语义转换等代表性思路。比较范围较广，说明结果具有较高参考价值。

在 MOSI 数据集上，BCTN 在 Acc2、F1 与 Corr 等指标上取得了略高或相近的结果，并维持较低 MAE，显示出较强的多模态表征与跨模态交互能力。与 TFN、LMF 等张量融合方法相比，其分类准确率和相关性更高，说明该框架更善于捕获模态互补信息；与 MulT、MAG-Bert、ALMT 等 transformer 类方法相比，整体表现可比或略优。论文同时指出，BCTN 在 Acc7 和 MAE 上并非所有指标最优，反映其在细粒度情感分类与情感强度回归方面仍有提升空间。

在 MOSEI 数据集上，BCTN 在 Acc2、F1 与 Corr 上同样取得具有竞争力的结果，说明其在更大规模、更复杂数据上的二分类情感识别与相关性建模较为有效。虽然 Acc7 略低于 ALMT，但整体结果表明，该模型在大规模多模态场景中仍具有较强鲁棒性。论文将这一优势归因于双向跨模态交互带来的更深层语义交换，以及统一多模态表征策略对情感一致性信息的保留作用。

在 CH-SIMS 数据集上，BCTN 在所有评价指标上均表现出竞争力，尤其取得最低 MAE 与最高 Corr，表明该方法不仅提升了分类精度，也提高了中文场景下细粒度情感强度预测的可靠性。研究人员指出，该结果显示模型能够更好捕获中文多模态表达中隐含的情绪一致性，因为中文情感往往并不完全依赖显式文本极性，也常通过细微语音语调与面部动态表达。

4.5. Ablation Studies
4.5.1. Contribution of Each Modality
研究人员通过单模态、双模态与三模态输入比较不同模态贡献。结果显示，移除文本模态带来的性能下降最大，说明文本承载了最直接的语义信息；移除视觉或音频也会导致性能下降，但影响较小；完整三模态模型稳定优于任意双模态组合。该结果证明视觉与音频提供了实现最优性能所必需的互补线索。

4.5.2. Contribution of Model Components
消融实验表明，去除双向跨模态注意力模块会造成最严重的性能退化，证明其是模型性能提升的关键来源；去除 HMRT 也会导致显著下降，说明深层再融合对于高阶跨模态关系建模是必要的；去除文本增强注意力、BiLSTM 或 UMFE 均会降低性能。文本单模态基线与仅拼接融合基线表现较弱，进一步说明仅依靠文本或朴素融合难以充分挖掘跨模态高阶语义关系。

4.5.3. Comparison of Different Fusion Techniques
在 MOSI 和 MOSEI 上，对比不同融合策略后，研究人员发现基于所提出双向跨模态注意力模块的融合方式效果最佳。这一结果支持了双向交互比简单融合或较弱交互机制更有利于情感预测。

4.5.4. Influence of Query/Key/Value Configurations in TE Mul
研究人员进一步分析 TE-Mul 模块中 Query、Key、Value 的模态配置。实验表明，当文本模态作为 Query，而视觉或音频模态作为 Key 和 Value 时，模型性能最佳，且持续优于以视觉或音频作为 Query 的配置。该发现验证了文本模态在语义承载上的主导地位，也支持文本引导高层融合的设计合理性。

4.6. Model Complexity
模型复杂度比较显示，BCTN 的可训练参数量高于 TFN、LMF 等轻量模型，但低于 MulT、MISA 等复杂跨模态模型。这说明该方法在提升性能的同时保持了相对合理的计算效率，在精度与复杂度之间实现了平衡。

4.7. Visualization Analysis
4.7.1. Cross-Modal Attention Weights
交叉模态注意力可视化显示，在 MOSI 测试集上，模型对视觉模态给予的平均注意权重高于音频模态，表明在该数据集中视觉信息相较声学信息对文本具有更强互补作用。这与消融实验中去除视觉造成更明显性能下降的结果一致。

4.7.2. t-SNE Feature Visualization
t-SNE 可视化表明，在跨模态交互前，三种模态特征聚类分离明显，存在较大模态鸿沟；经过双向跨模态注意力模块后，不同模态特征更加交织且紧密，说明模型能够将多模态特征对齐到共享语义空间中。

4.7.3. Loss Curves
分类损失在训练早期快速下降并逐步稳定，训练与验证曲线趋势相近且间隔较小，说明模型具有较好收敛性与泛化能力；一致性损失初期明显下降而后期趋于稳定，表明模型逐步学习跨模态语义对齐，同时动态约束机制避免过度对齐；单模态损失持续下降并最终稳定，说明单模态监督能够有效增强各模态在独立特征空间中的判别能力。

4.7.4. Confusion Matrices
混淆矩阵结果显示，从二分类到七分类，随着分类粒度增加，判别难度上升，但模型仍保持较好的对角线集中趋势，说明其对不同情感等级仍具有较稳定的区分能力。

讨论部分指出，BCTN 在多模态情感分类与情感强度预测中的竞争性表现主要来源于三项关键创新：UMFE 将文本、音频和视觉映射到共享语义空间，支持跨模态对齐与互补信息捕获；双向跨模态注意力加强了模态间语义依赖建模，使多模态表征更加丰富一致；HMRT 在深层融合过程中抑制冗余信息并增强判别能力，尤其有利于细粒度情感预测。此外，多层级联合损失在维持单模态判别性的同时促进跨模态一致性。论文同时指出，该模型在跨领域与跨语言泛化方面仍有限，高维融合与双向注意力也提升了训练复杂度，对实时应用带来挑战。未来工作将聚焦缺失模态补偿、跨领域自适应、模型轻量化与更广泛的实际场景。

结论部分可译为：本文提出了一种用于多模态情感分析的双向跨模态 transformer 网络（BCTN）。该模型整合了三个关键组成部分：统一多模态特征编码（UMFE）模块、双向跨模态注意力（Bi-Cross-Attn）机制，以及带有模态自适应门控机制的跨模态再融合 transformer（HMRT）模块。同时，研究人员还引入了带一致性约束和基于不确定性的自适应加权的多任务学习框架，以将不同模态对齐到共享语义空间。研究人员在 CMU-MOSI、CMU-MOSEI 和 CH-SIMS 三个公开数据集上进行了广泛实验。定量结果表明，BCTN 在全部评估指标上持续取得先进或具有竞争力的性能。在 CMU-MOSI 和 CMU-MOSEI 上，该模型在分类准确率和回归相关性方面表现优越，超过了大多数现有方法。更重要的是，在包含更细微且更复杂情感表达的中文数据集 CH-SIMS 上，BCTN 显示出最显著的提升。这表明，双向跨模态交互与跨模态再融合可能有助于建模不同模态传达冲突或模糊情感线索的情形。进一步分析表明，与 MulT 和 TETFN 等 transformer 基线相比，BCTN 表现更稳定、更鲁棒；与 MISA、MFM 等采用模态不变与模态特异学习策略的方法相比，BCTN 取得了整体最佳结果，突显了统一 transformer 架构的优势。消融实验确认，双向跨模态注意力模块对性能增益贡献最大，而 HMRT 模块和多任务一致性损失也带来了明确改进。注意力权重矩阵、t-SNE 特征分布、损失曲线和混淆矩阵等可视化结果进一步证明，BCTN 能够有效对齐多模态特征、平稳收敛并区分细粒度情感水平。尽管结果令人鼓舞，当前架构仍依赖完整模态输入，当一个或多个模态缺失或受噪声干扰时性能可能下降。未来工作将重点关注缺失模态恢复的跨模态生成、不完整条件下的鲁棒多模态表征学习，以及轻量化模型压缩，以提升效率和实际部署能力。

联系信箱：

粤ICP备09063491号

热点排行