UMo: Unified Sparse Motion Modeling for Real-Time Co-Speech Avatars

作者: Xiaoyu Zhan, Xinyu Fu, Chenghao Yang, Xiaohong Zhang, Dongjie Fu, Pengcheng Fang, Tengjiao Sun, Xiaohao Cai, Hansung Kim, Yuanqi Li, Jie Guo, Yanwen Guo

分类: cs.GR, cs.CV, cs.SD

发布日期: 2026-05-14

💡 一句话要点

UMo：用于实时协同语音化身的统一稀疏运动建模

🎯 匹配领域: 支柱四：生成式动作 (Generative Motion) 支柱七：动作重定向 (Motion Retargeting) 支柱八：物理动画 (Physics-based Animation) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 协同语音化身 稀疏运动建模 实时动画生成 混合专家网络 关键帧设计

📋 核心要点

现有方法在音频运动对齐方面局限于单一模态，未能充分利用大规模人体运动数据的潜力。
UMo采用统一的稀疏运动建模架构，在统一公式中处理文本、音频和运动token，实现高效的实时密集重建。
实验结果表明，UMo在低延迟和实时性能约束下，能够生成更高质量的动画，提升了语音-运动对齐效果。

📝 摘要（中文）

本文提出UMo，一种用于实时协同语音化身的统一稀疏运动建模架构，它在统一的公式中处理文本、音频和运动token。UMo利用空间稀疏的混合专家框架和时间稀疏的、以关键帧为中心的设计，高效地执行实时密集重建，从而为面部表情和手势生成时间连贯且高保真的动画。此外，我们实施了一种多阶段训练策略，并结合有针对性的音频增强，以提高声学多样性和语义一致性。因此，即使在严格的延迟约束下，UMo也能保持精细的语音-运动对齐。大量的定量和定性评估表明，UMo在低延迟和实时性能约束下实现了更好的输出质量，为高保真实时协同语音化身提供了一个实用的解决方案。

🔬 方法详解

问题定义：现有语音驱动的化身动画方法，要么仅依赖单一音频模态进行运动对齐，无法充分利用大规模运动数据；要么受限于多模态模型的表达能力和吞吐量，难以实现高质量的运动生成和实时性能，尤其是在低延迟约束下保证语音和动作的精准同步。

核心思路：UMo的核心在于提出一种统一的稀疏运动建模框架，通过在空间和时间上的稀疏性设计，提升模型的效率和实时性。空间稀疏性通过混合专家网络实现，时间稀疏性则通过关键帧为中心的设计实现。这种设计使得模型能够在低计算成本下，实现高保真和时间连贯的动画生成。

技术框架：UMo的整体架构包含以下几个主要模块：1) 输入token化模块，将文本、音频和运动数据转换为统一的token表示；2) 稀疏运动建模模块，利用空间稀疏的混合专家网络和时间稀疏的关键帧设计，进行运动预测和重建；3) 多阶段训练模块，通过针对性的音频增强，提高模型的鲁棒性和泛化能力。整个流程旨在实现低延迟、高质量的协同语音化身动画生成。

关键创新：UMo的关键创新在于其统一的稀疏运动建模架构。与现有方法相比，UMo能够同时处理多种模态的输入，并利用稀疏性设计显著提升模型的效率和实时性。此外，多阶段训练策略和音频增强技术进一步提高了模型的性能和鲁棒性。

关键设计：UMo的关键设计包括：1) 空间稀疏的混合专家网络，用于动态选择合适的专家进行运动预测；2) 时间稀疏的关键帧设计，减少了需要处理的帧数，降低了计算复杂度；3) 多阶段训练策略，包括预训练、微调和对抗训练等阶段，以提高模型的性能和鲁棒性；4) 音频增强技术，通过添加噪声、改变语速等方式，增加音频数据的多样性，提高模型的泛化能力。

🖼️ 关键图片

📊 实验亮点

实验结果表明，UMo在低延迟和实时性能约束下，能够生成更高质量的动画。具体来说，UMo在多个指标上优于现有方法，例如在运动平滑度、语音-运动对齐精度等方面均有显著提升。此外，UMo还能够在消费级硬件上实现实时运行，为实际应用提供了可能。

🎯 应用场景

UMo具有广泛的应用前景，包括游戏、虚拟制作、互动媒体等领域。它可以用于创建逼真的数字角色，提升用户在虚拟环境中的沉浸感和互动体验。此外，UMo还可以应用于远程会议、在线教育等场景，实现更自然、更富有表现力的交流。

📄 摘要（原文）

Speech-driven gestures and facial animations are fundamental to expressive digital avatars in games, virtual production, and interactive media. However, existing methods are either limited to a single modality for audio motion alignment, failing to fully utilize the potential of massive human motion data, or are constrained by the representation ability and throughput of multimodal models, which makes it difficult to achieve high-quality motion generation or real-time performance. We present UMo, a unified sparse motion modeling architecture for real-time co-speech avatars, which processes text, audio, and motion tokens within a unified formulation. Leveraging a spatially sparse Mixture-of-Experts framework and a temporally sparse, keyframe-centric design, UMo efficiently performs real-time dense reconstruction, enabling temporally coherent and high-fidelity animation generation for both facial expressions and gestures. Furthermore, we implement a multi-stage training strategy with targeted audio augmentation to enhance acoustic diversity and semantic consistency. Consequently, UMo preserves fine-grained speech-motion alignment even under strict latency constraints. Extensive quantitative and qualitative evaluations show that UMo achieves better output quality under low latency and real-time performance constraints, offering a practical solution for high-fidelity real-time co-speech avatars.

UMo: Unified Sparse Motion Modeling for Real-Time Co-Speech Avatars

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理