UniMotion: A Unified Framework for Motion-Text-Vision Understanding and Generation
作者: Ziyi Wang, Xinshun Wang, Shuang Chen, Yang Cong, Mengyuan Liu
分类: cs.CV, cs.AI
发布日期: 2026-03-23
备注: 42 pages, 16 figures
💡 一句话要点
UniMotion:提出统一框架,实现运动、文本和视觉的理解与生成。
🎯 匹配领域: 支柱四:生成式动作 (Generative Motion) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)
关键词: 多模态学习 运动生成 文本生成 图像生成 跨模态对齐 连续表示学习 自监督学习
📋 核心要点
- 现有方法在处理多模态任务时,通常仅限于模态子集,并依赖离散token化,导致量化误差和时间连续性中断。
- UniMotion将运动视为与RGB同等重要的连续模态,通过CMA-VAE和DPA等技术,实现跨模态信息的有效融合和知识迁移。
- UniMotion通过LRA自监督预训练策略,解决了运动路径的冷启动问题,并在多个跨模态任务上取得了SOTA性能。
📝 摘要(中文)
UniMotion是一个统一的框架,它能够在单个架构中同时理解和生成人体运动、自然语言和RGB图像。现有的统一模型仅处理有限的模态子集(例如,运动-文本或静态姿势-图像),并且主要依赖于离散token化,这引入了量化误差并破坏了时间连续性。UniMotion通过一个核心原则克服了这两个限制:将运动视为与RGB同等重要的第一类连续模态。一个新颖的跨模态对齐运动VAE(CMA-VAE)和对称双路径嵌入器构建了运动和RGB的并行连续路径,位于共享的LLM骨干网络中。为了在推理时无需图像的情况下将视觉语义先验注入到运动表示中,我们提出了双后验KL对齐(DPA),它将视觉融合编码器更丰富的后验知识提炼到仅运动编码器中。为了解决冷启动问题(即,仅文本监督对于校准新引入的运动路径来说过于稀疏),我们进一步提出了潜在重建对齐(LRA),这是一种自监督预训练策略,它使用密集的运动潜在变量作为明确的条件来共同校准嵌入器、骨干网络和流头,从而为所有下游任务建立稳定的运动感知基础。UniMotion在跨越三种模态之间的任意到任意理解、生成和编辑的七个任务中实现了最先进的性能,尤其是在跨模态组合任务中具有显著优势。
🔬 方法详解
问题定义:现有方法在处理运动、文本和视觉多模态任务时,通常只能处理模态的子集,例如仅处理运动和文本,或者静态姿势和图像。此外,现有方法通常采用离散token化方法,将连续的运动数据转换为离散的token,这会导致量化误差,并且破坏了运动的时间连续性。这些问题限制了模型在复杂多模态任务中的表现。
核心思路:UniMotion的核心思路是将运动视为与RGB图像同等重要的第一类连续模态。通过构建一个统一的框架,能够同时理解和生成运动、文本和视觉信息。该框架采用连续的表示学习方法,避免了离散token化带来的问题,并利用跨模态对齐技术,实现不同模态之间的信息融合和知识迁移。
技术框架:UniMotion的整体架构包含以下几个主要模块:1) 跨模态对齐运动VAE (CMA-VAE):用于学习运动的连续表示,并与RGB图像进行对齐。2) 对称双路径嵌入器:为运动和RGB图像构建并行的连续路径,将它们嵌入到共享的LLM骨干网络中。3) LLM骨干网络:用于处理嵌入后的运动、文本和视觉信息,进行多模态的理解和生成。4) 双后验KL对齐 (DPA):用于将视觉信息融入到运动表示中,即使在推理时没有图像也能利用视觉先验。5) 潜在重建对齐 (LRA):一种自监督预训练策略,用于解决运动路径的冷启动问题。
关键创新:UniMotion的关键创新在于:1) 将运动视为第一类连续模态,避免了离散token化带来的问题。2) 提出了CMA-VAE,用于学习运动的连续表示,并与RGB图像进行对齐。3) 提出了DPA,用于将视觉信息融入到运动表示中,即使在推理时没有图像也能利用视觉先验。4) 提出了LRA,用于解决运动路径的冷启动问题。
关键设计:CMA-VAE采用VAE结构,通过编码器将运动数据映射到潜在空间,然后通过解码器从潜在空间重建运动数据。DPA通过最小化运动编码器和视觉融合编码器后验分布之间的KL散度,将视觉信息融入到运动表示中。LRA通过使用密集的运动潜在变量作为条件,共同校准嵌入器、骨干网络和流头。损失函数包括重建损失、KL散度损失和对齐损失等。
🖼️ 关键图片
📊 实验亮点
UniMotion在七个跨越运动、文本和视觉模态的任务上取得了最先进的性能。尤其在跨模态组合任务上,UniMotion表现出显著的优势,证明了其在多模态理解和生成方面的强大能力。具体性能数据在论文中详细给出,相较于现有方法有显著提升。
🎯 应用场景
UniMotion具有广泛的应用前景,例如:虚拟现实和增强现实中的人物动画生成、游戏开发中的角色动作设计、机器人控制中的运动规划、以及人机交互中的自然语言驱动的运动生成。该研究的实际价值在于能够提高多模态任务的性能,并促进人与机器之间的更自然、更智能的交互。未来,UniMotion可以进一步扩展到更多的模态,例如音频和触觉,从而实现更全面的多模态理解和生成。
📄 摘要(原文)
We present UniMotion, to our knowledge the first unified framework for simultaneous understanding and generation of human motion, natural language, and RGB images within a single architecture. Existing unified models handle only restricted modality subsets (e.g., Motion-Text or static Pose-Image) and predominantly rely on discrete tokenization, which introduces quantization errors and disrupts temporal continuity. UniMotion overcomes both limitations through a core principle: treating motion as a first-class continuous modality on equal footing with RGB. A novel Cross-Modal Aligned Motion VAE (CMA-VAE) and symmetric dual-path embedders construct parallel continuous pathways for Motion and RGB within a shared LLM backbone. To inject visual-semantic priors into motion representations without requiring images at inference, we propose Dual-Posterior KL Alignment (DPA), which distills a vision-fused encoder's richer posterior into the motion-only encoder. To address the cold-start problem -- where text supervision alone is too sparse to calibrate the newly introduced motion pathway -- we further propose Latent Reconstruction Alignment (LRA), a self-supervised pre-training strategy that uses dense motion latents as unambiguous conditions to co-calibrate the embedder, backbone, and flow head, establishing a stable motion-aware foundation for all downstream tasks. UniMotion achieves state-of-the-art performance across seven tasks spanning any-to-any understanding, generation, and editing among the three modalities, with especially strong advantages on cross-modal compositional tasks.