基于视频的协同语音整体3D动作生成及风格化处理

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Graphical Models》：Co-speech holistic 3D motion generation with style from video

【字体：大中小】 时间：2026年05月29日 来源：Graphical Models 2.2

编辑推荐：

　　张雅宇|文宇辉|李晨光|景丽萍|余健摘要基于语音驱动的3D动作生成技术近年来受到了越来越多的研究关注。然而，该技术在实现风格可控性方面面临重大挑战，主要原因是动作风格注释的匮乏。为了解决这一问题，我们提出了一种基于扩散算法的新框架，用于实现从视频中提取动作风格并进行整体动作生成。

张雅宇|文宇辉|李晨光|景丽萍|余健

摘要

基于语音驱动的3D动作生成技术近年来受到了越来越多的研究关注。然而，该技术在实现风格可控性方面面临重大挑战，主要原因是动作风格注释的匮乏。为了解决这一问题，我们提出了一种基于扩散算法的新框架，用于实现从视频中提取动作风格并进行整体动作生成。该方法结合了分层语音编码和具有节奏感知能力的去噪技术，从而生成自然且同步的手势和表情。为了有效指导风格生成，我们引入了一种对比式风格编码器，该编码器能够在无需明确标注的情况下从参考视频中捕获具有区分性的风格特征，从而实现对训练过程中未见过动作风格的泛化。此外，我们还设计了一种神经映射器，将2D和3D手势特征映射到同一个嵌入空间中，便于直接从实际视频中提取风格信息，并将其无缝转换为3D动作。广泛的实验和用户研究表明，我们提出的方法在定性和定量评估中均取得了领先性能，为可控动作生成提供了一种灵活的解决方案。

联系信箱：

粤ICP备09063491号

摘要

热点排行