深度空间与通道滑动注意力块用于姿态不变的面部表情识别

《Graphical Models》:Deep spatial and channel sliding attention patches for pose-invariant facial expression recognition

【字体: 时间:2026年04月04日 来源:Graphical Models 2.2

编辑推荐:

  姿态不变的面部表情识别(FER)是计算机视觉中一个重要且具有挑战性的研究课题,尤其是在姿态变化和自遮挡引入的情况下,导致识别结果随观察角度变化而变化。本研究提出了一种用于姿态不变FER的滑动补丁结合空间与通道注意力网络(SPA-SE)。所提网络包含三个主要组件

  
姿态不变的面部表情识别(FER)是计算机视觉中一个重要且具有挑战性的研究课题,尤其是在姿态变化和自遮挡引入的情况下,导致识别结果随观察角度变化而变化。本研究提出了一种用于姿态不变FER的滑动补丁结合空间与通道注意力网络(SPA-SE)。所提网络包含三个主要组件:滑动补丁(SP)模型、空间级补丁注意力(SPA)模型和通道级注意力(挤压和提取)模型。滑动补丁(SP)模型设计用于确定最佳补丁大小和步长,减少姿态变化对识别准确率的影响。空间级补丁注意力(SPA)模型引导网络关注区域特征,并自适应分配权重以表示局部补丁的重要性。通道级注意力模型嵌入到瓶颈块中,为SPA模型提供更显著的特征图。为评估SPA-SE网络的有效性,研究人员在五个姿态不变的FER数据集上进行了实验。这些数据集包括三个可控的FER数据集(BU3DFEP1、BU3DFEP2和Multi-PIE),准确率分别为78.01%、81.65%和86.77%,以及两个真实世界的FER数据集(Pose-RAFDB和Pose-Affect),准确率分别为86.76%(>30°)和85.92%(>45°),以及59.84%(>30°)和60.36%(>45°)。结果表明,该方法能有效提高实际应用中的识别准确率。
姿态不变的面部表情识别(FER)在计算机视觉领域具有广泛的应用潜力,包括人机交互、驾驶员疲劳监测和医疗警报系统等,但其面临的核心挑战是头部姿态变化和面部自遮挡导致识别结果随观察角度变化而波动。心理实验证明,即使是15°的头部姿态改变也会显著影响表情感知和分析,因此开发对姿态鲁棒的FER方法至关重要。传统方法通常依赖于将面部图像分割为小块或基于校准关键点提取区域,例如分块分割(division-patches)或关键点分割(landmark-patches),这些方法通过局部特征提取来增强识别精度,但存在局限性:传统方法依赖于手动裁剪和特征提取,增加了复杂性并忽略了相邻块间的依赖关系;而深度学习方法虽采用多通道多区域集成学习,但需预训练多个感兴趣区域(ROI)模型并分配损失函数,导致计算复杂度高和网络结构复杂。为了解决这些问题,研究人员提出了一种端到端的深度滑动注意力补丁网络,用于姿态不变的FER。该网络结合了滑动补丁(SP)模型、空间级补丁注意力(SPA)模型和通道级注意力(挤压和提取)模型,旨在自适应捕获局部特征信息并增强表示能力。这项研究发表在《Graphical Models》上,具有重要的理论意义和应用价值,为姿态不变的FER提供了新的解决方案。

为了实现研究目标,研究人员采用了几个主要关键技术方法。首先,基于ResNet50的前四个卷积层作为深度特征提取器,从输入面部图像中生成1024个大小为14×14的特征图。滑动补丁(SP)模型通过可调整的滑动窗口在特征图上移动,以确定最佳补丁大小和步长,从而捕获局部区域信息;该模型无需预分割或关键点检测,保留了相邻块间的边缘纹理特征。空间级补丁注意力(SPA)模型通过最大池化、卷积和全连接层提取每个补丁的显著特征,并分配权重表示其重要性;通道级注意力模型基于挤压和提取(SE)操作,嵌入瓶颈块中,通过全局平均池化和全连接层训练通道权重,以增强特征表示。实验在五个姿态不变的FER数据集上进行:三个可控数据集(BU3DFEP1、BU3DFEP2和Multi-PIE)和两个真实世界数据集(Pose-RAFDB和Pose-Affect),其中BU3DFEP1和BU3DFEP2包含合成图像,Multi-PIE在真实条件下采集,Pose-RAFDB和Pose-Affect从RAF-DB和AffectNet测试集精炼而来,确保评估全面。

研究结果部分通过多个实验验证了SPA-SE网络的有效性。在BU3DFEP1数据集上,SPA-SE网络在五个观察角度(0°、30°、45°、60°、90°)下的平均识别准确率为78.01%,优于传统方法如LBP(65.02%)和LLCBL(74.60%),以及深度学习方法如ResNet50(75.54%)和ST-SE(76.20%)。消融研究表明,引入SPA和SE模型分别提高了识别精度,验证了各组件的重要性。在BU3DFEP2数据集上,平均识别准确率为81.65%,与传统方法和深度学习方法相比表现优异,例如超越了VGG19(78.93%)和ResNet50(79.60%)。在Multi-PIE数据集上,平均识别准确率为86.77%,在七个观察角度(0°至90°)下均表现良好,尤其在30°时达到最高准确率89.38%,并优于ST-SE(86.10%)和GAN-ED(86.74%)。对于真实世界场景,Pose-RAFDB数据集在姿态大于30°和45°时分别达到86.76%和85.92%的准确率;Pose-Affect数据集达到59.84%和60.36%的准确率,与现有方法如Zhao等人(27)的多区域集成学习相比具有竞争力。此外,通过类激活映射(CAM)可视化,SPA-SE网络能准确捕获关键面部区域特征,如眼睛、嘴巴等,提高了识别鲁棒性。复杂度分析显示,SPA-SE网络参数量和浮点运算次数(FLOPs)低于基线ResNet50,训练和测试时间也有所减少,适合实际应用。

讨论部分总结了研究的贡献和局限性。SPA-SE网络通过滑动补丁模型自适应选择局部块,结合空间和通道注意力机制,有效提取显著特征,提高了姿态不变FER的准确性和稳定性。在可控和真实世界场景中,该方法均优于传统方法和深度学习基准。然而,SPA-SE网络在处理噪声、模糊或不均匀光照的图像时可能无法高效提取显著特征,特别是在真实世界场景中。未来研究将致力于减少噪声对姿态不变FER的影响,以提升实际应用中的性能。研究结论指出:本研究提出了深度滑动补丁结合空间-通道注意力(SPA-SE)网络用于姿态不变的FER,其中SP模块优化补丁参数,SPA模块提取空间级显著特征,SE模块为每个局部块分配权重;该方法无需预分割或关键点检测,更直接便捷;在五个数据集上的实验表明,SPA-SE网络在可控和真实场景中均实现了更高的识别准确率。未来工作将聚焦于最小化噪声影响,进一步提升姿态不变FER的鲁棒性。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号