利用分层VQ-VAE生成多样化的、高保真的3D人体动作

《Neurocomputing》：Generating diverse high-fidelity 3D human motion with hierarchical VQ-VAE

【字体：大中小】 时间：2026年05月26日 来源：Neurocomputing 6.5

编辑推荐：

　　李叶轩|王光远|马文轩|张宏鑫|王哲北京邮电大学，中国北京市西土城路100080摘要在计算机视觉和图形学领域，创建真实且富有表现力的3D人体运动仍然是一个巨大的挑战。我们提出了一种从粗略到精细的文本驱动3D人体运动生成流程，该流程将分层VQ-VAE与条件掩码Transformer

李叶轩|王光远|马文轩|张宏鑫|王哲

北京邮电大学，中国北京市西土城路100080

摘要

在计算机视觉和图形学领域，创建真实且富有表现力的3D人体运动仍然是一个巨大的挑战。我们提出了一种从粗略到精细的文本驱动3D人体运动生成流程，该流程将分层VQ-VAE与条件掩码Transformer相结合。首先将运动分解为顶层全局标记和底层局部标记；顶层标记通过自回归生成，而底层标记则根据顶层先验进行条件补充。研究了两种轻量级Transformer变体——交叉注意力和自适应层归一化——以整合条件信息。在HumanML3D和KIT-ML上的广泛实验表明，所提出的框架在FID、R-精度和多样性指标上取得了有希望的结果，同时更准确地重建了运动轨迹和局部细节。

引言

在人工智能这一蓬勃发展的领域中，文本驱动的人体运动生成最近已成为一个新兴的研究焦点，对动画、电影、VR/AR和机器人技术等多个领域具有深远的影响。然而，将文本描述转换为准确且真实的运动序列是一个具有挑战性的过程，主要是因为在文本模态和运动动态之间建立连贯关系是一项复杂的任务。文本描述本质上是高层次和抽象的，通常缺乏精确运动生成所需的详细规范。相反，运动数据是连续的、微妙的，并且需要对自然运动具有高度的忠实度。这种模态之间的差异需要创新的方法来有效地捕捉和转化文本指令的本质。

近年来，出现了多种创新方法[11]、[21]、[27]、[30]、[46]、[64]、[68]来尝试解决上述问题。其中，使用生成式Transformer对人类运动进行建模[21]、[27]、[64]已经变得流行。在这个流程中，运动通过向量量化变分自编码器[VQ-VAE]被量化为离散标记。这一关键策略将文本到运动的范式转变为序列到序列的问题，从而可以应用诸如自回归[4]、[8]、[58]和掩码建模方法[13]等经过验证的技术，这些技术在处理各种领域的序列数据时显示出了令人信服的结果[3]、[5]、[10]、[41]、[42]、[53]。

尽管取得了令人印象深刻的结果，但这些方法都有一个固有的缺点。传统的VQ-VAE在保持运动忠实度方面存在局限性，尤其是在捕捉动作轨迹的复杂性方面。为了解决这一挑战，我们使用了分层向量量化变分自编码器。它将人体运动编码为离散的顶层和底层标记，分别代表全局和局部运动。这种策略允许将详细动作与全局信息（如运动轨迹）分开。为了进一步利用顶层标记的先验信息来改进底层标记的生成，我们提出了一种条件掩码Transformer，根据顶层标记预测随机掩码的底层标记。同时，我们研究了两种高效的Transformer块变体来处理条件顶层标记。此外，我们还研究了两种Transformer块变体，以有效地将条件信息从顶层标记整合到掩码底层标记的预测中。

最后，通过对公共数据集的实证评估，并结合详细的视觉分析，验证了我们方法的有效性。结果不仅展示了文本到运动生成在多样性和对齐方面的显著改进，还突出了在重建复杂运动轨迹方面的精度提升。通过这项工作，我们为该领域的持续发展做出了贡献，并扩展了从文本描述合成运动的可能性。我们的贡献总结如下（图1）。

' role="presentation">
我们使用分层VQ-VAE分别量化运动的全球信息和局部信息，以提高运动轨迹的重建质量。
' role="presentation">
我们提出了条件掩码Transformer架构，以利用顶层标记的先验信息生成高质量的运动。同时，我们研究了两种高效的Transformer块变体来处理条件顶层标记。

章节片段

方法

我们的目标是设计一种由文本描述指导的3D人体运动序列生成方法。为此，我们的方法如图2所示，包括两个模块：一个将运动序列分量为多层离散标记的运动分层量化器（第3.2节）和一个运动标记预测器，该预测器由两个组件组成：一个预测顶层标记的掩码运动Transformer和一个根据

实验

在本节中，我们首先在第4.1节介绍数据集、评估指标和实现细节。然后在第4.2节进行定量和定性比较。最后，在第4.4节通过消融研究分析该方法的主要组成部分。

局限性和未来工作

尽管所提出的框架在大多数文本到运动生成场景中取得了有希望的性能，但仍存在一些局限性。首先，模型可能难以处理涉及罕见动作组合、分层时间依赖性或细粒度肢体级约束的特别复杂的文本提示。由于当前框架直接依赖原始文本描述作为条件输入，模糊或高度复杂的语言可能会降低

未引用的参考文献

[62]

CRediT作者贡献声明

李叶轩：撰写——原始草稿、可视化、研究、数据整理、概念化。王光远：撰写——原始草稿、方法论、研究、数据整理、概念化。马文轩：撰写——审阅与编辑、验证、形式分析、数据整理。张宏鑫：撰写——审阅与编辑、监督、资源获取、形式分析。王哲：验证、数据整理、概念化。

利益冲突声明

作者声明他们没有已知的可能会影响本文所述工作的竞争性财务利益或个人关系。

致谢

本工作部分得到了中国国家自然科学基金（项目编号62376035、62006024、U2241208和62071057）和中央高校基本科研业务费（项目编号2023RC26）的支持。

李叶轩是北京邮电大学的研究生，师从张宏鑫教授。她的研究兴趣包括多模态和人工智能。

摘要

引言

章节片段

相关工作

方法

实验

局限性和未来工作

未引用的参考文献

CRediT作者贡献声明

利益冲突声明

致谢

热点排行