UniMotion: A Unified Framework for Motion-Text-Vision Understanding and Generation

作者: Ziyi Wang, Xinshun Wang, Shuang Chen, Yang Cong, Mengyuan Liu

分类: cs.CV, cs.AI

发布日期: 2026-03-23

备注: 42 pages, 16 figures

💡 一句话要点

UniMotion：提出统一框架，实现运动、文本和视觉的理解与生成。

🎯 匹配领域: 支柱四：生成式动作 (Generative Motion) 支柱七：动作重定向 (Motion Retargeting) 支柱八：物理动画 (Physics-based Animation)

关键词: 多模态学习 运动生成 文本生成 图像生成 跨模态对齐 连续表示学习 自监督学习

📋 核心要点

现有方法在处理多模态任务时，通常仅限于模态子集，并依赖离散token化，导致量化误差和时间连续性中断。
UniMotion将运动视为与RGB同等重要的连续模态，通过CMA-VAE和DPA等技术，实现跨模态信息的有效融合和知识迁移。
UniMotion通过LRA自监督预训练策略，解决了运动路径的冷启动问题，并在多个跨模态任务上取得了SOTA性能。

📝 摘要（中文）

UniMotion是一个统一的框架，它能够在单个架构中同时理解和生成人体运动、自然语言和RGB图像。现有的统一模型仅处理有限的模态子集（例如，运动-文本或静态姿势-图像），并且主要依赖于离散token化，这引入了量化误差并破坏了时间连续性。UniMotion通过一个核心原则克服了这两个限制：将运动视为与RGB同等重要的第一类连续模态。一个新颖的跨模态对齐运动VAE（CMA-VAE）和对称双路径嵌入器构建了运动和RGB的并行连续路径，位于共享的LLM骨干网络中。为了在推理时无需图像的情况下将视觉语义先验注入到运动表示中，我们提出了双后验KL对齐（DPA），它将视觉融合编码器更丰富的后验知识提炼到仅运动编码器中。为了解决冷启动问题（即，仅文本监督对于校准新引入的运动路径来说过于稀疏），我们进一步提出了潜在重建对齐（LRA），这是一种自监督预训练策略，它使用密集的运动潜在变量作为明确的条件来共同校准嵌入器、骨干网络和流头，从而为所有下游任务建立稳定的运动感知基础。UniMotion在跨越三种模态之间的任意到任意理解、生成和编辑的七个任务中实现了最先进的性能，尤其是在跨模态组合任务中具有显著优势。

🔬 方法详解

问题定义：现有方法在处理运动、文本和视觉多模态任务时，通常只能处理模态的子集，例如仅处理运动和文本，或者静态姿势和图像。此外，现有方法通常采用离散token化方法，将连续的运动数据转换为离散的token，这会导致量化误差，并且破坏了运动的时间连续性。这些问题限制了模型在复杂多模态任务中的表现。

核心思路：UniMotion的核心思路是将运动视为与RGB图像同等重要的第一类连续模态。通过构建一个统一的框架，能够同时理解和生成运动、文本和视觉信息。该框架采用连续的表示学习方法，避免了离散token化带来的问题，并利用跨模态对齐技术，实现不同模态之间的信息融合和知识迁移。

技术框架：UniMotion的整体架构包含以下几个主要模块：1) 跨模态对齐运动VAE (CMA-VAE)：用于学习运动的连续表示，并与RGB图像进行对齐。2) 对称双路径嵌入器：为运动和RGB图像构建并行的连续路径，将它们嵌入到共享的LLM骨干网络中。3) LLM骨干网络：用于处理嵌入后的运动、文本和视觉信息，进行多模态的理解和生成。4) 双后验KL对齐 (DPA)：用于将视觉信息融入到运动表示中，即使在推理时没有图像也能利用视觉先验。5) 潜在重建对齐 (LRA)：一种自监督预训练策略，用于解决运动路径的冷启动问题。

关键创新：UniMotion的关键创新在于：1) 将运动视为第一类连续模态，避免了离散token化带来的问题。2) 提出了CMA-VAE，用于学习运动的连续表示，并与RGB图像进行对齐。3) 提出了DPA，用于将视觉信息融入到运动表示中，即使在推理时没有图像也能利用视觉先验。4) 提出了LRA，用于解决运动路径的冷启动问题。

关键设计：CMA-VAE采用VAE结构，通过编码器将运动数据映射到潜在空间，然后通过解码器从潜在空间重建运动数据。DPA通过最小化运动编码器和视觉融合编码器后验分布之间的KL散度，将视觉信息融入到运动表示中。LRA通过使用密集的运动潜在变量作为条件，共同校准嵌入器、骨干网络和流头。损失函数包括重建损失、KL散度损失和对齐损失等。

🖼️ 关键图片

📊 实验亮点

UniMotion在七个跨越运动、文本和视觉模态的任务上取得了最先进的性能。尤其在跨模态组合任务上，UniMotion表现出显著的优势，证明了其在多模态理解和生成方面的强大能力。具体性能数据在论文中详细给出，相较于现有方法有显著提升。

🎯 应用场景

UniMotion具有广泛的应用前景，例如：虚拟现实和增强现实中的人物动画生成、游戏开发中的角色动作设计、机器人控制中的运动规划、以及人机交互中的自然语言驱动的运动生成。该研究的实际价值在于能够提高多模态任务的性能，并促进人与机器之间的更自然、更智能的交互。未来，UniMotion可以进一步扩展到更多的模态，例如音频和触觉，从而实现更全面的多模态理解和生成。

📄 摘要（原文）

We present UniMotion, to our knowledge the first unified framework for simultaneous understanding and generation of human motion, natural language, and RGB images within a single architecture. Existing unified models handle only restricted modality subsets (e.g., Motion-Text or static Pose-Image) and predominantly rely on discrete tokenization, which introduces quantization errors and disrupts temporal continuity. UniMotion overcomes both limitations through a core principle: treating motion as a first-class continuous modality on equal footing with RGB. A novel Cross-Modal Aligned Motion VAE (CMA-VAE) and symmetric dual-path embedders construct parallel continuous pathways for Motion and RGB within a shared LLM backbone. To inject visual-semantic priors into motion representations without requiring images at inference, we propose Dual-Posterior KL Alignment (DPA), which distills a vision-fused encoder's richer posterior into the motion-only encoder. To address the cold-start problem -- where text supervision alone is too sparse to calibrate the newly introduced motion pathway -- we further propose Latent Reconstruction Alignment (LRA), a self-supervised pre-training strategy that uses dense motion latents as unambiguous conditions to co-calibrate the embedder, backbone, and flow head, establishing a stable motion-aware foundation for all downstream tasks. UniMotion achieves state-of-the-art performance across seven tasks spanning any-to-any understanding, generation, and editing among the three modalities, with especially strong advantages on cross-modal compositional tasks.

UniMotion: A Unified Framework for Motion-Text-Vision Understanding and Generation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理