ReCoM: Realistic Co-Speech Motion Generation with Recurrent Embedded Transformer

📄 arXiv: 2503.21847v1 📥 PDF

作者: Yong Xie, Yunlian Sun, Hongwen Zhang, Yebin Liu, Jinhui Tang

分类: cs.GR, cs.AI

发布日期: 2025-03-27

备注: 8 pages, 6 figures, Project Page: https://yong-xie-xy.github.io/ReCoM/

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

提出ReCoM框架,通过循环嵌入Transformer实现逼真且泛化的语音驱动人体动作生成。

🎯 匹配领域: 支柱四:生成式动作 (Generative Motion)

关键词: 语音驱动动作生成 人体动作合成 循环嵌入Transformer 动态嵌入正则化 迭代重建推理

📋 核心要点

  1. 现有语音驱动人体动作生成方法难以捕捉动作的时空依赖性,导致生成的手势不自然且缺乏连贯性。
  2. ReCoM通过循环嵌入Transformer (RET) 显式建模语音协同运动的动态特性,实现联合时空依赖性建模。
  3. 实验表明,ReCoM在基准数据集上显著提升了运动逼真度,Fréchet手势距离 (FGD) 降低了86.7%。

📝 摘要(中文)

本文提出ReCoM,一个高效的框架,用于生成与语音同步的高保真和可泛化的人体动作。核心创新在于循环嵌入Transformer (RET),它将动态嵌入正则化 (DER) 集成到视觉Transformer (ViT) 核心架构中,以显式地建模语音协同运动的动态特性。这种架构实现了联合时空依赖性建模,从而通过连贯的运动合成增强了手势的自然性和逼真度。为了增强模型的鲁棒性,我们引入了DER策略,使模型具备抗噪声和跨域泛化的双重能力,从而提高了对未见过的语音输入的零样本运动生成的自然性和流畅性。为了缓解自回归推理的固有局限性,包括误差累积和有限的自我纠正能力,我们提出了一种迭代重建推理 (IRI) 策略。IRI通过循环姿态重建来细化运动序列,由两个关键组件驱动:(1)无分类器引导改进了生成手势和真实手势之间的分布对齐,无需辅助监督;(2)时间平滑过程消除了突兀的帧间过渡,同时确保了运动学的连续性。在基准数据集上的大量实验验证了ReCoM的有效性,在各项指标上都取得了最先进的性能。值得注意的是,它将Fréchet手势距离 (FGD) 从18.70降低到2.48,表明运动逼真度提高了86.7%。

🔬 方法详解

问题定义:论文旨在解决语音驱动人体动作生成问题,即根据给定的语音信号生成与之同步且自然逼真的人体动作序列。现有方法通常难以捕捉动作的时空依赖性,导致生成的手势不自然、缺乏连贯性,并且泛化能力较差,难以处理未见过的语音输入。

核心思路:ReCoM的核心思路是利用循环嵌入Transformer (RET) 显式地建模语音协同运动的动态特性,从而实现更自然、连贯且具有泛化能力的手势生成。RET通过将动态嵌入正则化 (DER) 集成到视觉Transformer (ViT) 架构中,增强了模型对时空依赖关系的建模能力,并提高了模型的鲁棒性和泛化性。此外,迭代重建推理 (IRI) 策略用于缓解自回归推理的误差累积问题。

技术框架:ReCoM的整体框架包含以下几个主要模块:1) 语音特征提取模块,用于提取语音信号的特征表示;2) 循环嵌入Transformer (RET) 模块,用于建模语音和动作之间的时空依赖关系,并生成初始的动作序列;3) 迭代重建推理 (IRI) 模块,用于通过循环姿态重建来细化初始的动作序列,提高其自然性和连贯性。IRI模块包含无分类器引导和时间平滑两个关键组件。

关键创新:ReCoM最重要的技术创新点在于循环嵌入Transformer (RET) 和迭代重建推理 (IRI) 策略。RET通过动态嵌入正则化 (DER) 增强了模型对时空依赖关系的建模能力,并提高了模型的鲁棒性和泛化性。IRI策略则通过循环姿态重建来细化动作序列,缓解了自回归推理的误差累积问题。与现有方法相比,ReCoM能够生成更自然、连贯且具有泛化能力的手势。

关键设计:RET的关键设计包括:1) 将动态嵌入正则化 (DER) 集成到ViT架构中,以显式地建模语音协同运动的动态特性;2) 使用循环结构来捕捉动作序列的时序依赖关系。IRI的关键设计包括:1) 使用无分类器引导来改进生成手势和真实手势之间的分布对齐;2) 使用时间平滑过程来消除突兀的帧间过渡,同时确保运动学的连续性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

ReCoM在基准数据集上取得了显著的性能提升。实验结果表明,ReCoM将Fréchet手势距离 (FGD) 从18.70降低到2.48,表明运动逼真度提高了86.7%。此外,ReCoM在其他指标上也优于现有方法,证明了其在语音驱动人体动作生成方面的有效性。

🎯 应用场景

ReCoM在虚拟现实、人机交互、动画制作等领域具有广泛的应用前景。它可以用于创建更逼真、更自然的虚拟人物,提升用户在虚拟环境中的沉浸感。此外,ReCoM还可以用于辅助动画制作,自动生成与语音同步的角色动作,提高制作效率。在人机交互方面,ReCoM可以使机器人或虚拟助手能够根据用户的语音指令做出更自然、更符合语境的动作,从而提升交互体验。

📄 摘要(原文)

We present ReCoM, an efficient framework for generating high-fidelity and generalizable human body motions synchronized with speech. The core innovation lies in the Recurrent Embedded Transformer (RET), which integrates Dynamic Embedding Regularization (DER) into a Vision Transformer (ViT) core architecture to explicitly model co-speech motion dynamics. This architecture enables joint spatial-temporal dependency modeling, thereby enhancing gesture naturalness and fidelity through coherent motion synthesis. To enhance model robustness, we incorporate the proposed DER strategy, which equips the model with dual capabilities of noise resistance and cross-domain generalization, thereby improving the naturalness and fluency of zero-shot motion generation for unseen speech inputs. To mitigate inherent limitations of autoregressive inference, including error accumulation and limited self-correction, we propose an iterative reconstruction inference (IRI) strategy. IRI refines motion sequences via cyclic pose reconstruction, driven by two key components: (1) classifier-free guidance improves distribution alignment between generated and real gestures without auxiliary supervision, and (2) a temporal smoothing process eliminates abrupt inter-frame transitions while ensuring kinematic continuity. Extensive experiments on benchmark datasets validate ReCoM's effectiveness, achieving state-of-the-art performance across metrics. Notably, it reduces the Fréchet Gesture Distance (FGD) from 18.70 to 2.48, demonstrating an 86.7% improvement in motion realism. Our project page is https://yong-xie-xy.github.io/ReCoM/.