《Image and Vision Computing》:DMC-former: A dual-flow dynamic mask and collaborative attention-based network for micro-expression recognition
编辑推荐:
微表情识别中,本文提出DMC-Former双流框架,通过CA-MoViT分支捕获全局上下文特征,ELA-CNN分支提取局部细节特征,并设计动态屏蔽机制和双流光流对比损失优化策略,有效提升模型鲁棒性和识别精度,在四个基准数据集上验证效果显著。
赵书环|赵佩静|杨书文|刘帅奇
河北大学电子与信息工程学院,保定 071002,中国
摘要
微表情(MEs)难以被抑制,在心理咨询、商业谈判、驾驶员疲劳检测和审讯中具有潜在应用价值。然而,由于其持续时间短暂且局部变化微妙,高效提取具有区分性的运动特征仍然是一个重大挑战,尤其是在将局部特征与全局上下文信息相结合时。为了解决这个问题,我们提出了DMC-Former这一新颖的双流网络框架,以提高微表情识别的性能。为了减轻不稳定的光流对模型鲁棒性的影响,该框架采用了两种类型的光流特征作为输入。其中一个分支CA-MoViT用于捕获全局表示,另一个分支ELA-CNN用于提取局部详细特征。此外,还采用了双流对比损失策略来利用两个分支的特征,显著提升了识别准确性和模型鲁棒性。在四个基准数据集(SMIC-HS、CASME II、SAMM和CAS(ME)^3)上的广泛实验验证了所提出方法的有效性。
引言
面部表情是人类情感交流的重要方式[1]。最近的研究将微表情识别(MER)确立为一个新兴的研究焦点[2]。微表情被定义为短暂、非自愿的面部肌肉收缩,通常出现在高压力或情绪激动的情境中。由于微表情难以被抑制或伪造,因此它们能够真实反映人们的真实情感[3]。微表情通常持续0.25到0.2秒[4],伴随着细微的肌肉收缩。因此,微表情的检测比宏观表情的检测更具挑战性。
早期的手工特征提取方法难以从微妙的面部变化中捕获具有区分性的信息,导致微表情识别的性能有限。尽管卷积神经网络(CNNs)[5]在多个视觉识别任务中优于传统方法,但它们在建模时间依赖性方面存在局限性,并且需要大量的标注数据,而微表情数据集的规模通常较小且类别不平衡。因此,仅依赖卷积神经网络(CNNs)不足以应对微表情识别中存在的复杂挑战。视觉变换器(ViT)[6]是一种新型的深度学习架构,在图像分类任务中得到了广泛应用。ViT所采用的自我注意力机制能够有效建模长距离的空间关系,在全局上下文特征提取方面表现出色。与CNNs相比,ViT在建模广泛的范围上下文关系方面更具能力。然而,ViT的训练过程计算量大,这限制了其在微表情识别中的有效性。
本文提出了一种包含两个分支的双流网络架构。第一个分支CA-MoViT(协作注意力-MobileNetV2视觉变换器)基于视觉变换器(ViT),并使用MobileNetV2作为特征提取器。它结合了协作注意力机制,并引入了动态掩蔽策略来减轻过拟合现象,同时进行全局特征提取。第二个分支是ELA-CNN(高效局部注意力卷积神经网络),这是一种基于高效局部注意力机制的卷积神经网络,专注于捕获细粒度的局部特征。通过整合这两个分支并采用双流对比损失训练策略,所提出的框架进一步增强了模型的鲁棒性。总之,本文的主要贡献包括:
1)提出了一种名为DMC-Former(动态掩蔽和协作注意力变换器)的微表情识别网络。通过整合CA-MoViT和ELA-CNN架构,DMC-Former显著增强了全局上下文建模和局部细节提取能力,从而更好地表示了微表情中的细微面部变化。
2)为了减少冗余和过拟合,引入了一种基于注意力的动态掩蔽机制。该机制能够自适应地抑制无关特征,减少冗余信息,提高学习效率和模型鲁棒性。
3)为了解决不稳定光流导致的鲁棒性下降问题,我们构建了一种双光流对比损失优化策略:使用两种不同的光流图作为输入,对比它们的特征差异,并通过温度系数调整对比损失。
4)在多个公共数据集上进行了广泛的实验,以验证所提出方法的有效性。
相关研究
相关工作
早期的研究主要使用手工设计的特征提取方法。赵等人的开创性研究[7]提出了LBP-TOP运算符,该运算符从视频序列的三个正交平面中提取特征。在此基础上,多年来开发了许多LBP-TOP的变体。为了提高LBP-TOP在微表情识别中的效率,王等人[8]引入了LBP-SIP描述符,整合了六个交叉点的时空特征提出的方法
所提出的框架如图1所示,包括三个关键组成部分:数据预处理、特征提取和表情分类。在数据预处理阶段,分别使用FlowNet2[25]和Farneback[26]生成两种类型的光流图,提供互补的运动信息。然后这些双流图被输入到两个并行分支中进行特征提取。CA-MoViT分支利用动态掩蔽机制捕获全局面部表示实验与结果
为了评估所提出方法的有效性,在CDE和SDE两种设置下进行了实验。比较结果来自原始论文中报告的实验设置。为了确保公平比较,所有方法都在常用的协议下进行了评估,包括留一受试者法(LOSO)和标准基准数据集。
消融研究
所提出的DMC-Former包含几个关键组件,包括双光流输入、双分支网络、协作注意力和双光流对比损失。为了评估每个核心模块和参数设置的有效性,本节在统一的实验设置下进行了系统的消融研究。通过逐步添加每个关键组件,我们比较了模型在不同配置下的性能,从而明确了结论
本文提出了一种基于动态掩蔽和协作注意力的视觉变换器网络DMC-Former,用于微表情识别。在CA-MoViT分支中引入了基于注意力的动态掩蔽机制来防止过拟合。此外,通过对比学习策略结合了两种类型的光流,并使用温度系数调节的对比损失函数,增强了模型在处理多样数据时的鲁棒性
CRediT作者贡献声明
赵书环:撰写——审稿与编辑,概念构思。赵佩静:验证。杨书文:撰写——初稿。刘帅奇:资金获取。
资助
本研究部分得到了国家自然科学基金(项目编号:62172139)、河北省自然科学基金(项目编号:F2022201055)、河北省自然科学基金科研项目(项目编号:CXY2024031)以及河北大学自然科学交叉研究计划(项目编号:DXK202102)的支持。此外,本研究还得到了河北大学高性能计算中心的支持。
利益冲突声明
作者声明他们没有已知的财务利益冲突或个人关系可能影响本文所述的工作。