基于视频的协同语音整体3D动作生成及风格化处理

《Graphical Models》:Co-speech holistic 3D motion generation with style from video

【字体: 时间:2026年05月29日 来源:Graphical Models 2.2

编辑推荐:

  张雅宇|文宇辉|李晨光|景丽萍|余健摘要基于语音驱动的3D动作生成技术近年来受到了越来越多的研究关注。然而,该技术在实现风格可控性方面面临重大挑战,主要原因是动作风格注释的匮乏。为了解决这一问题,我们提出了一种基于扩散算法的新框架,用于实现从视频中提取动作风格并进行整体动作生成。

  
张雅宇|文宇辉|李晨光|景丽萍|余健

摘要

基于语音驱动的3D动作生成技术近年来受到了越来越多的研究关注。然而,该技术在实现风格可控性方面面临重大挑战,主要原因是动作风格注释的匮乏。为了解决这一问题,我们提出了一种基于扩散算法的新框架,用于实现从视频中提取动作风格并进行整体动作生成。该方法结合了分层语音编码和具有节奏感知能力的去噪技术,从而生成自然且同步的手势和表情。为了有效指导风格生成,我们引入了一种对比式风格编码器,该编码器能够在无需明确标注的情况下从参考视频中捕获具有区分性的风格特征,从而实现对训练过程中未见过动作风格的泛化。此外,我们还设计了一种神经映射器,将2D和3D手势特征映射到同一个嵌入空间中,便于直接从实际视频中提取风格信息,并将其无缝转换为3D动作。广泛的实验和用户研究表明,我们提出的方法在定性和定量评估中均取得了领先性能,为可控动作生成提供了一种灵活的解决方案。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号