在全局连贯性与局部细节之间寻求平衡:基于频率分解的全身人体运动预测

《Engineering Applications of Artificial Intelligence》:Balancing global coherence and hand-level detail: Frequency-decomposed whole-body human motion prediction

【字体: 时间:2026年04月13日 来源:Engineering Applications of Artificial Intelligence 8

编辑推荐:

  提出FHM-Net通过离散小波变换分离全身运动低频全局动态与高频局部细节,结合动态超图卷积建模多关节协调,并利用Mamba架构高效处理长时序依赖,实现全局连贯与局部精度的平衡,显著提升预测准确性和效率。

  
杨德龙|王彤|马琳达|崔琼杰
西安交通大学(XJTU)人机混合增强智能国家重点实验室,中国西安,710049

摘要

人机交互使具身智能能够在从工业制造到日常护理的多种真实世界任务中协助人类。这种协助的核心能力是准确的全身运动预测,这需要同时建模平滑的长期身体动力学和局部关节(尤其是手部)的快速、细粒度的动作。现有方法通常要么偏重全局时间连贯性,要么偏重局部运动真实性,这使得在统一且高效的框架内同时实现这两者变得困难。我们受到基于选择性状态空间的线性时间序列建模(Mamba)的启发,提出了一种频率感知的超图-Mamba网络(FHM-Net),该网络能够同时建模频率、空间和时间上的运动。具体来说,FHM-Net通过离散小波变换将运动序列分解为互补的低频和高频成分,从而实现全局姿态演变和局部关节动力学的独立 yet 协同建模。为了捕捉超出成对骨骼关系的空间协调性,我们引入了一种动态超图卷积,它可以自适应地为多关节交互构建上下文感知的超边。对于时间建模,我们采用了基于Mamba的结构化状态空间解码器,该解码器能够在保持时间稳定性的同时,以线性计算复杂度将运动状态传播到较长的时间范围内。一个轻量级的重投影头将潜在特征映射到解剖学上合理的三维关节坐标。在多个基准测试上的广泛实验表明,FHM-Net在预测准确性和效率方面始终优于现有方法。通过实现全身运动预测中的全局连贯性和局部精度,我们的工作为现实世界辅助场景中的人机交互提供了一个有前景的步骤。

引言

从观察到的姿态序列预测未来的人类运动是与人交互或协同工作的智能系统的基本能力。这项任务被称为人类运动预测(HMP),它是具身机器人技术和外科远程操作、虚拟现实和增强现实以及数字媒体中真实角色动画等应用的基础(Cai等人,2020年;Aksan等人,2021年;Taheri等人,2020年;Cui等人,2023a年;Cui等人,2023b年)。
最近的研究已经从仅建模粗粒度的身体动力学(躯干和四肢)转向了整体全身人类运动预测(WHMP),后者明确纳入了细粒度的手部动作(Taheri等人,2020年;Lin等人,2023年)。这一演变是由于观察到高精度的人机交互,如灵巧的物体操作、工具使用或辅助护理,严重依赖于对微妙的高频手部动作的准确预测(Lyu等人,2025年)。因此,WHMP不仅是对传统HMP的扩展,而且是一个更加具有挑战性的问题,它需要能够平衡真实性、效率和物理合理性的架构。
与身体级预测相比,WHMP从根本上改变了建模问题的性质。全身运动本质上是多频率和层次化的:全局身体运动作为定义姿态、平衡和轨迹的低频信号随时间平滑演变,而局部动力学——尤其是在手部——则表现为高频变化,这些变化编码了微妙且快速变化的关节协同作用(Mao等人,2019年;Li等人,2020年)。因此,一个统一的模型必须在长时间范围内进行推理,同时捕捉细粒度的局部依赖性。实际上,现有方法往往倾向于这一谱系中的一个方面:它们要么保持全局上合理的运动,但缺乏手部的真实性,要么以不稳定和不一致的身体轨迹为代价生成详细的手部模型(Taheri等人,2022年;Wu等人,2022年)。这种不平衡揭示了当前框架的一个核心限制:没有一个框架能够有效地以高效和统一的方式协调多频率时间动力学和高阶空间协调性。
通过计算和表示权衡的视角来看,这些限制变得更加明显(Tian等人,2024年;Yu等人,2025年;Chen等人,2024年)。基于Attention Is All You Need(Transformer)的模型由于它们通过自注意力(Aksan等人,2021年;Nargund和Sra,2023年;Xiao等人,2024年)强大地建模长距离依赖性,已成为许多时间推理任务的主流解决方案,而最近在时空Transformer建模方面的进展进一步证明了它们在捕捉复杂跨帧依赖性方面的有效性(Gritsenko等人,2024年)。然而,它们在时空令牌数量上的二次复杂度使得随着运动序列长度和关节粒度的增加而变得越来越难以处理(Shen等人,2021年;Keles等人,2023年)。在全身设置中,每个帧包含数十个相互连接的关节,这导致成对交互的数量激增,即使使用稀疏或层次化的注意力方案,也严重限制了内存和运行时间。图卷积网络(GCNs)将人体骨骼建模为关系图,提供了计算效率和结构可解释性(Yan等人,2018年;Dang等人,2021年),但它们的成对消息传递无法完全捕捉高阶依赖性或协调的群体运动,例如多指协同作用或手臂运动与手部姿态之间的耦合。时间卷积和循环网络同样由于梯度消失和接收场有限而难以保持长时间范围的一致性(Martinez等人,2017年;Mao等人,2019年)。总的来说,当前的架构受到关于局部性的假设的限制,仍然无法以高效的方式联合建模长期时间背景和细粒度的空间协调性。
克服这一限制不仅仅需要对现有框架进行渐进式的改进;它需要改变表示和建模策略。全身运动本质上是非静态的,因为缓慢的全局姿态演变和快速的局部瞬变经常在同一序列中共存。这一属性使得采用能够分离不同时间尺度动力学的频率分解方案变得至关重要。尽管离散余弦变换(DCT)和简单的傅里叶滤波对于能量压缩有效,但它们对瞬变事件的时间定位能力较弱,而短时傅里叶变换(STFT)虽然恢复了时间锚定,但代价是固定的时间-频率分辨率(Daubechies,1990年)。相比之下,离散小波变换(DWT)提供了时间上定位的多分辨率分析,允许同时捕捉缓慢的全局动力学和快速的局部变化,同时保持时间对齐(Y. Xiao等人,2025年)。此外,与可学习的滤波器组不同,DWT不引入额外的分解参数,并提供了更大的频率带划分的可解释性和控制性(Daubechies,1990年)。因此,我们采用DWT作为轻量级但理论上有根据的分解方法,这与频率辅助机制在视觉和时空序列建模中的日益广泛应用相一致(Wu和Hung,2025年)。
在此基础上,不同频率带的运动特性进一步决定了后续建模器的选择。低频成分主要对应于连续且平滑的全局姿态演变,强调建模长期依赖性和整体运动趋势。最近提出的Mamba架构,即选择性结构化状态空间模型(Chaudhuri和Bhattacharya,2024年),为此目的提供了一个合适的机制。它不依赖于成对令牌交互,而是通过不断演变的隐藏状态压缩历史信息,并通过输入依赖的选择机制保留关键上下文,从而在保持线性复杂性的同时实现长时间序列的全局感知。对于WHMP,这一属性特别适合于建模由低频动力学主导的整体身体运动。相比之下,高频成分更常反映手部和局部关节的快速变化,其主要挑战不在于长时间范围内的积累,而在于多个关节之间的复杂协调。传统的基于边的骨骼图主要建模成对连接,因此不足以完全捕捉更高阶的协作行为。为了解决这个问题,最近的研究开始将人体骨骼从普通图扩展到超图表示(Cui等人,2024年;Hao等人,2021年)。通过允许单个超边同时连接多个解剖学或功能上相关的关节,它能够自然地描述群体级别的协调模式和非物理邻接依赖性,使其更适合建模高频局部动力学。
基于这些见解,我们提出了频率感知的超图-Mamba网络(FHM-Net),这是一种用于全身人类运动预测的频率感知架构。在统一的框架内,FHM-Net结合了时间频率分解、基于超图的动力学空间建模和基于Mamba的结构化状态空间解码,以明确捕捉平滑全局姿态和细粒度局部关节运动之间的多频率耦合。这项工作的主要贡献如下:
  • 我们设计了一个频率感知的全身运动预测网络FHM-Net,它将姿态序列分解为互补的低频和高频通道,并为每个通道分配特定的模型,从而构建了一个统一的频率分解和特定通道建模框架。
  • 我们开发了一个高频动态超图卷积(HGC)模块,它捕捉相关关节之间的高阶空间依赖性,实现精细的行为,如协调的手部动作,同时保持解剖学上的真实性。
  • 我们提出了一种基于低频Mamba的架构,它以线性复杂度建模粗略但稳定的全局动力学,作为长距离全身运动预测的高效支柱。

部分摘录

人类运动预测

基于循环的方法:早期的HMP方法将运动预测表述为序列到序列的问题,并使用循环神经网络(RNNs)来建模时间依赖性(Fragkiadaki等人,2015年;Martinez等人,2017年)。后来的变体,包括残差RNNs和分层长短期记忆网络(LSTMs),提高了稳定性并减少了误差累积(Martinez等人,2017年;Hu等人,2019年)。然而,循环模型仍然存在误差漂移、梯度消失等问题

提出的方法

如图1所示,FHM-Net是一个频率感知的框架,它明确分离并建模全局和局部动力学。给定一个历史性的3D姿态序列,离散小波变换首先将运动分解为低频和高频成分,然后将它们投影到一个共享的潜在空间,并由堆叠的超图-Mamba人类运动former(HyMoFormer)块进行处理。每个块使用频率Ramp Inception在基于Mamba的低频分支和

数据集

我们在三个公共基准测试上评估了FHM-Net:用身体抓取真实物体(GRAB)(Taheri等人,2020年)、真实场景、交互、接触和人类(RICH)(Huang等人,2022年)以及用于跟踪人类物体交互的数据集和方法(BEHAVE)(Bhatnagar等人,2022年)。遵循之前的工作(Ding等人,2024年;Huang等人,2022年;Bhatnagar等人,2022年),所有序列都经过统一预处理并重采样为每秒30帧(fps)。其中,GRAB是主要的

讨论

近年来,全身人类运动预测已经从简单的身体关节外推发展到涉及细粒度手部运动和人机交互的更复杂场景。这些任务需要长时间范围的一致性、交互意识和更强的物理合理性,这使得在统一模型中平衡全局姿态稳定性和局部运动细节变得困难。FHM-Net通过将低频全局动力学与高频局部动力学分离来应对这一挑战

结论

这项工作解决了全身人类运动预测中的一个基本挑战,即平衡全局骨骼稳定性和局部手部运动的真实性。在单一的时空框架中表示所有运动模式通常需要在这些目标之间进行权衡。为了解决这个问题,我们通过将运动分解为低频全局姿态演变和高频局部协调动力学来从频率域的角度进行分析

CRediT作者贡献声明

杨德龙:撰写——审阅与编辑,撰写——原始草稿,方法论,资金获取。王彤:撰写——原始草稿,可视化,软件,数据管理。马琳达:撰写——审阅与编辑,撰写——原始草稿,验证。崔琼杰:撰写——审阅与编辑,验证,监督,方法论,调查,形式分析,概念化。

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能会影响本文报告的工作。

致谢

这项工作得到了非传染性疾病-国家科学技术重大项目(中国)2024ZD0531200)、国家自然科学基金(中国)823028428256045162306141)以及广东省基础与应用基础研究基金(中国)2023A1515140123)的支持。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号