一种注意力驱动的特征融合方法用于多模态基于方面的情感分析

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Big Data and Cognitive Computing》：An Attention-Driven Feature Fusion Approach for Multimodal Aspect-Based Sentiment Analysis

【字体：大中小】 时间：2026年06月11日 来源：Big Data and Cognitive Computing 4.4

编辑推荐：

　　基于方面的情感分析（Aspect-Based Sentiment Analysis）探索与特定意见方面相关的情感趋势，并在品牌声誉监控、客户满意度理解和个性化推荐方面具有显著的商业潜力。然而，传统方法仅依赖文本输入，当目标方面在句子中未明确提及时常面临困难。多

基于方面的情感分析（Aspect-Based Sentiment Analysis）探索与特定意见方面相关的情感趋势，并在品牌声誉监控、客户满意度理解和个性化推荐方面具有显著的商业潜力。然而，传统方法仅依赖文本输入，当目标方面在句子中未明确提及时常面临困难。多模态基于方面的情感分析（Multimodal Aspect-Based Sentiment Analysis, MABSA）通过整合文本和视觉模态来解决这一局限，从而实现更全面的情感理解。尽管深度学习与基于Transformer的架构取得进展，现有模型仍常受限于次优的模态融合和薄弱的方面对齐，限制了其分类精度。为克服这些挑战，研究人员提出了一种基于三阶段分层注意力机制的注意力驱动特征融合（Attention-Driven Feature Fusion, ADFF）方法。首先，该方法仅融合文本和图像嵌入；其次，融入方面级特征；最后，通过多头注意力层进一步增强跨模态依赖关系。所得表示被传递至长短期记忆网络（Long Short-Term Memory, LSTM）分类器进行情感极性预测。研究人员在三个基准数据集（Twitter-2015、Twitter-2017和MASAD）上评估了该模型。实验结果表明，所提模型显著优于最先进的多模态和单模态基线，在Twitter-2015上达到82.55%的准确率和81.05%的F1分数，在Twitter-2017上达到77.07%的准确率和77.15%的F1分数，在MASAD的植物领域（Plant domain）中准确率和F1分数高达99.67%，并且在所有七个领域均观察到一致的改进。这些结果凸显了基于分层注意力的融合策略在实际基于方面的情感分析任务中的有效性和可扩展性。

**论文解读：注意力驱动特征融合方法在多模态基于方面情感分析中的应用**

**研究背景与问题**

随着社交媒体平台爆发式增长，用户生成内容——包含产品评论、政策态度等——成为分析公众情感与行为模式的宝贵资源。情感分析（Sentiment Analysis, SA）作为自然语言处理（Natural Language Processing, NLP）的核心任务，旨在分类表达的意见，为品牌监控、产品开发和客户互动提供关键洞察。然而，单一帖子可能对产品或服务的不同特征传达多种甚至矛盾的情感，这催生了基于方面的情感分析（Aspect-Based Sentiment Analysis, ABSA），其专注于识别与特定方面或属性相关的情感极性，实现细粒度解释。传统ABSA方法主要依赖文本内容，但当目标方面在句子中未明确提及（隐含方面）时，模型难以准确分类。近年来，用户越来越多地在帖子中附带图像以更好地传达体验和情感，这种结合文本与视觉的多模态内容为增强方面级情感提取提供了新机遇。多模态基于方面的情感分析（Multimodal Aspect-Based Sentiment Analysis, MABSA）应运而生，旨在通过联合建模文本和图像模态，更有效地捕捉隐含和显式的意见表达。尽管现有MABSA研究取得进展，仍存在三个关键局限：第一，许多模型未能充分解决目标方面与相关图像之间的语义对齐问题——Yu等人报告在常用Twitter数据集中近58%的意见目标未在对应图像中视觉呈现，导致模型依赖无关或误导性视觉信息；第二，多数方法强调方面与各模态间的细粒度交互，却忽视了句子整体与图像之间的广泛上下文关系；第三，许多融合策略将文本、图像和方面表示一次性合并，过早混合异构信息，削弱了模态特定特征的保留。

**研究内容与结论**

为应对上述挑战，研究人员提出了一种注意力驱动特征融合（Attention-Driven Feature Fusion, ADFF）框架，该框架基于三阶段分层注意力机制，逐步整合文本、图像和方面特定信息，以提升多模态情感理解。实验在三个基准数据集（Twitter-2015、Twitter-2017和MASAD）上进行，结果表明ADFF在准确率和F1分数上均显著优于当前最先进的多模态和单模态基线模型，尤其是在MASAD植物领域（Plant domain）达到99.67%的准确率和F1分数，并在所有七个领域均展现一致性改进。这证明了分层注意力融合策略在真实场景中基于方面情感分析任务的有效性和可扩展性。论文发表在《Big Data and Cognitive Computing》。

**主要关键技术与方法**

研究人员采用了以下主要关键技术：
- **文本特征提取**：使用OpenAI的Text-embedding-3-large模型生成句子级上下文嵌入。
- **图像特征提取**：使用Vision Transformer（ViT）将图像划分为图像块并编码为高级视觉表示。
- **三阶段分层注意力融合**：第一阶段通过交叉注意力将文本与图像嵌入对齐；第二阶段将方面嵌入融入该多模态表示；第三阶段使用多头注意力（Multi-Head Attention, MHA）模块进一步细化全局跨模态依赖。
- **分类器**：将最终多模态表示输入长短期记忆网络（Long Short-Term Memory, LSTM）中进行单时间步门控特征细化与情感极性分类。
- **评价指标**：采用准确率（Accuracy, ACC）和F1分数（F1-score, F1）。

**研究结果**

**1. 单模态与多模态性能对比（Table 4）**
通过对比单模态（仅文本）和多模态（文本+图像）配置，发现多模态配置在所有数据集和MASAD所有领域上均一致优于单模态，尤其在MASAD的植物（Plant）领域（准确率从98.12提升至99.67）和动物（Animal）领域（从96.16提升至98.69），同时在Twitter-2015和Twitter-2017上F1分数分别提升约4%和6%。这表明分层注意力融合策略能有效捕捉和整合文本与视觉模态的互补线索。

**2. 文本模态：MASAD数据集（Table 5）**
在MASAD上测试了BERT、RoBERTa和Text-embedding-3-large三种文本嵌入与LSTM、GRU、CNN三种分类器的组合。Text-embedding-3-large+LSTM以最高准确率和F1分数在所有类别中表现最佳，尤其在风景（Scenery）和人类（Human）等抽象类别中优势明显。LSTM因擅长建模长程依赖而优于GRU和CNN。

**3. 文本+图像模态：MASAD数据集（Table 6）**
结合Text-embedding-3-large、ViT和LSTM在所有MASAD类别中取得最高准确率和F1分数，尤其在食品（Food）和商品（Goods）领域提升明显。ViT优于ResNet和DenseNet，因其更强的全局视觉上下文捕获能力。LSTM仍是可靠分类器，CNN表现最差。

**4. 文本模态：Twitter-2015和Twitter-2017（Table 7）**
在Twitter-2015上，Text-embedding-3-large+LSTM达到78.86%准确率和78.32% F1分数；在Twitter-2017上达到72.77%准确率和72.70% F1分数，均优于BERT和RoBERTa组合。LSTM和GRU表现接近，CNN较差。

**5. 文本+图像模态：Twitter-2015和Twitter-2017（Table 8）**
Text-embedding-3-large+ViT+LSTM在Twitter-2015上达到82.55%准确率和81.05% F1分数；在Twitter-2017上达到77.07%准确率和77.15% F1分数，全面超越其他特征提取与分类器组合。ViT结合语言嵌入的优势显著；LSTM在所有特征提取器上表现最佳。

**6. 分类器选择影响（Table 9）**
在MASAD人类领域固定文本和图像编码器后，LSTM在准确率和F1分数上均优于前馈网络、CNN和GRU，证明其门控机制能更有效保留信息融合特征并抑制噪声。

**7. 消融研究（Table 10）**
在Twitter-2017上进行六种变体消融：完整ADFF模型（77.07%准确率，77.15% F1）；移除第一阶段（文本-图像注意力融合）导致准确率降至74.20%，F1降至74.24%；移除第二阶段（方面引导注意力）使准确率降至75.09%，F1降至75.16%；移除第三阶段（多头注意力）带来较小下降（准确率76.11%，F1 76.19%）；移除第一和第二阶段仅保留第三阶段则性能大幅下降（73.80%准确率，73.92% F1）；移除所有注意力阶段则性能最低（69.12%准确率，69.35% F1）。结果表明每个阶段均贡献显著，第一阶段和第二阶段更为关键。

**8. 训练与验证性能分析**
训练和验证准确率曲线稳步上升并接近重叠，损失曲线平稳下降，表明模型在所选超参数下稳定收敛且无过拟合，早期停止（patience=5）设置得当。

**9. 计算成本分析**
在Twitter-2017上完整训练耗时约2小时20分钟（12.7 GB RAM，107.7 GB磁盘），计算成本合理，适合批处理离线分析。

**10. 错误分析（混淆矩阵，Fig. 3）**
模型对正面和负面类别识别良好，两者混淆有限（仅12个正面被误判为负面，13个负面被误判为正面）。中性类别最难分类：87个中性被预测为正面，61个被预测为负面；此外35个负面被误判为中性。错误主要源于表达薄弱或模糊的情感，以及图像与文本关联不足的情况。

**11. 统计显著性分析**
二项检验确认模型在Twitter-2017上的77.07%准确率显著高于随机水平（p值趋近于零）。配对自助重采样显示ADFF相比基线准确率提升1.82个百分点（95%置信区间[0.61, 3.01]），McNemar检验p值为0.002，证实改进具有统计显著性和实际意义。

**12. 方面级性能分析（Table 11）**
在MASAD食品领域，cupcake、cake、chocolate、meat等样本充足的方面准确率和F1分数均超过98%；而milk方面仅7个样本，性能显著下降，表明数据分布对模型表现有重要影响。

**13. 与现有方法对比**
- **文本方法对比（Table 12，MASAD）**：ADFF在全部七个领域均优于ATAE-LSTM、IAN、RAM、AMIFN、MGFN-SD等基线，例如动物领域达96.16%准确率/96.14% F1。
- **多模态方法对比（Table 13，MASAD）**：ADFF在所有类别上超越MIMN、TomBERT、MMAP、AMIFN、MGFN-SD，植物领域达99.67%准确率/F1。
- **文本方法对比（Table 14，Twitter）**：在Twitter-2015上准确率78.86%（优于AMIFN 77.63%），F1显著超越DualKanbaFormer 4.69%；在Twitter-2017上准确率72.77%，F1 72.70%，均优于DualKanbaFormer。
- **多模态方法对比（Table 14，Twitter）**：在Twitter-2015上准确率82.55%、F1 81.05%，超过ASFEN 1.05%和2.06%；在Twitter-2017上准确率77.07%、F1 77.15%，超过ASFEN 1.37%和1.77%。

**讨论与结论**

在讨论部分，研究人员总结了各实验发现：ADFF的有效性源于高质量文本表示（Text-embedding-3-large）、全局视觉特征（ViT）、基于LSTM的序列建模以及三阶段注意力融合的协同作用。单模态与多模态对比确认视觉信息能提升性能；消融研究验证了每个注意力阶段的重要性，尤其是文本-图像对齐和方面引导。训练稳定性、合理的计算成本以及跨数据集的一致性表现证明了该框架的鲁棒性。存在的局限包括：需要显式提供方面术语、对否定、讽刺等语言形式处理不足、未利用外部知识、以及在中性或模糊情感下仍存在误分类。这些方向为未来工作提供了路径。

**结论翻译**：在本工作中，研究人员提出了一种新颖的注意力驱动特征融合（ADFF）框架，以解决当前多模态基于方面情感分析方法中的若干研究空白。该方法从预训练的文本和图像编码器中提取嵌入，然后通过一系列注意力操作进行融合：初始交叉注意力对齐文本与视觉特征，第二阶段交叉注意力融入方面信息，最后多头注意力模块进一步细化统一表示。所得多模态向量随后被传递至LSTM分类器进行情感预测。在Twitter-2015、Twitter-2017和MASAD基准数据集上的实验结果表明，ADFF一致优于有竞争力的单模态和多模态基线，突显了所提分层融合策略在细粒度情感分析中的有效性。计划中的改进包括：开发同时进行方面提取和情感分类的集成模型；融入句法模式、话语线索等额外语言特征及外部知识源；探索双向交叉注意力和联合多模态建模策略以更好地捕获弱关联视觉信息。预期这些增强将提升模型在不同领域和输入条件下的灵活性和鲁棒性。

联系信箱：

粤ICP备09063491号

热点排行