《Machine Intelligence Research》:MGMILA: Eulerian Motion-aware MILA for Micro-gesture Recognition
编辑推荐:
针对微手势因强度低、持续时间短而难以被传统动作识别模型有效捕捉的问题,研究人员开展了名为MGMILA的欧拉运动感知MILA框架研究。该工作创新性地集成了Mamba启发的线性注意力模块,并设计了MAL、MAC、MAG等多种运动提取变体以增强时空运动定位,同时引入人体分割掩码预测作为辅助任务。实验在iMiGUE、SMG和MA-52数据集上实现了SOTA性能,验证了该框架在提升微手势识别精度与运动感知能力方面的有效性。
在人与人的交流中,除了清晰的语言和大幅度的肢体动作,还存在着一种隐秘而丰富的信号——微手势。这些动作幅度微小、持续时间短暂,如不经意的嘴角牵动、手指的轻微颤动或眼睑的快速开合,构成了非言语行为中一个微妙而重要的组成部分。然而,正是其“低强度”和“短时程”的特性,使得微手势如同隐藏在数据海洋中的微弱涟漪,对传统基于深度学习的动作识别模型构成了严峻挑战。这些模型通常为捕捉明显、大幅度的运动而设计,在面对微手势时,往往显得“力不从心”,难以精准定位和辨识这些细微的动态变化。为了解决这一难题,推动人机交互、情感计算、心理分析等领域对非言语信号的深度理解,一项聚焦于微手势识别的前沿研究应运而生,其成果已发表在《Machine Intelligence Research》期刊上。
为了攻克微手势识别难题,研究人员提出了一种名为MGMILA的创新框架。该框架的核心是集成Mamba-inspired线性注意力(MILA),这是一种具有线性计算复杂度的模型,专为视频微手势识别优化。研究还设计了三种运动提取模块变体——MAL、MAC和MAG,以增强模型对时空运动信息的定位能力。此外,引入人体分割掩码预测作为辅助任务,引导模型聚焦于人体相关区域,从而提升运动感知。研究在iMiGUE、自发微手势(SMG)和MA-52三个数据集上进行了验证。
本研究的主要技术方法包括:1. 提出微手势Mamba启发线性注意力(MGMILA)框架,核心为Mamba-inspired线性注意力(MILA)模块,以线性复杂度处理视频序列。2. 设计了三种运动提取模块变体:运动即层(MAL)、运动即内容(MAC)和运动即门(MAG),用于增强时空运动定位。3. 引入人体分割掩码预测作为辅助学习任务,引导网络注意力集中于人体区域。4. 模型在iMiGUE、自发微手势(SMG)和MA-52三个公开微手势数据集上进行训练与性能评估。
研究结果
- •
MGMILA框架的有效性:通过系统对比实验,研究人员验证了所提出的MGMILA框架在多个微手势数据集上的优越性能。该框架成功整合了MILA的高效序列建模能力和多种运动感知机制,为微手势识别提供了一个强有力的基线模型。
- •
运动提取模块变体的性能比较:研究中对MAL、MAC和MAG三种运动提取模块变体进行了详尽的消融实验与分析。结果表明,不同的变体对运动信息的利用方式各有侧重,其中MAG(运动即门)机制在多数实验设置下表现出更佳的效能,能够更有效地利用运动信息来调制网络中的信息流,从而提升识别精度。
- •
人体分割掩码辅助任务的作用:通过引入人体分割掩码预测作为辅助任务,网络被明确地引导去关注视频中与人体相关的像素区域,而非背景或其他干扰信息。实验结果证实,该辅助任务能显著提升模型对微手势运动模式的感知能力和最终识别准确率,说明了聚焦于主体区域对于识别低强度运动的重要性。
- •
在基准数据集上的SOTA性能:在iMiGUE、SMG和MA-52这三个广泛使用的微手势识别基准数据集上进行综合评估后,MGMILA框架取得了当前最先进的(SOTA)性能。这一结果从实证角度有力地验证了所提方法在解决微手势低强度、短时程特性所带来的识别挑战方面的有效性。
结论与讨论
本研究针对微手势识别中的核心难点,提出并验证了一个名为MGMILA的新型运动感知框架。该框架通过集成高效的Mamba-inspired线性注意力(MILA)和创新的运动提取机制(MAL/MAC/MAG),显著增强了对微弱时空运动模式的建模与定位能力。同时,引入人体分割掩码预测作为辅助任务,进一步迫使模型专注于人体主体的动态变化,有效过滤了背景噪声的干扰。在iMiGUE、SMG和MA-52等多个公开数据集上达到领先水平的实验结果,充分证明了MGMILA框架的先进性与鲁棒性。
这项研究的重要意义在于,它为计算机视觉和人工智能领域中的细微动作识别问题提供了一个高效且强大的解决方案。所提出的框架不仅提升了微手势识别的技术天花板,其核心思想——即通过专门的运动感知模块和注意力引导机制来处理低信噪比视频信号——对于更广泛的弱监督动作识别、精细行为分析以及需要高时空敏感度的视频理解任务都具有重要的启发价值和借鉴意义。这项工作推动了人机交互、情感计算、非言语行为分析等领域向更自然、更细腻的理解层次迈进。