DIMO: Diverse 3D Motion Generation for Arbitrary Objects
作者: Linzhan Mou, Jiahui Lei, Chen Wang, Lingjie Liu, Kostas Daniilidis
分类: cs.CV
发布日期: 2025-11-10
备注: Published in ICCV 2025, project page https://linzhanm.github.io/dimo
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
提出DIMO以生成任意物体的多样化3D运动
🎯 匹配领域: 支柱四:生成式动作 (Generative Motion)
关键词: 3D运动生成 视频模型 潜在空间 神经关键点 运动插值 语言引导生成 动画制作 虚拟现实
📋 核心要点
- 现有方法在生成多样化3D运动时通常依赖于大量标注数据,缺乏灵活性和效率。
- DIMO通过提取视频模型中的运动模式,将其嵌入低维潜在空间,实现从单幅图像生成多样化3D运动。
- 实验结果表明,DIMO在运动生成的多样性和质量上显著优于现有基线方法,支持多种应用场景。
📝 摘要(中文)
我们提出了DIMO,这是一种生成方法,能够从单幅图像生成任意物体的多样化3D运动。我们的核心思想是利用经过良好训练的视频模型中的丰富先验知识,提取常见的运动模式,并将其嵌入共享的低维潜在空间。具体而言,我们首先生成同一物体的多段具有不同运动的视频,然后将每种运动嵌入潜在向量,并训练共享运动解码器以学习由结构化和紧凑的运动表示(即神经关键点轨迹)所表示的运动分布。通过这些关键点驱动的典型3D高斯分布,我们融合建模几何和外观。在推理阶段,利用学习到的潜在空间,我们可以在单次前向传播中即时采样多样化的3D运动,并支持包括3D运动插值和语言引导运动生成等多种有趣的应用。
🔬 方法详解
问题定义:本论文旨在解决从单幅图像生成多样化3D运动的挑战。现有方法通常需要大量标注数据,且生成的运动缺乏多样性和灵活性。
核心思路:DIMO的核心思路是利用经过训练的视频模型提取运动模式,并将其嵌入到共享的低维潜在空间中,从而实现高效的运动生成。
技术框架:DIMO的整体架构包括多个阶段:首先生成同一物体的多段视频,接着将每种运动嵌入潜在向量,最后训练共享运动解码器以学习运动分布。关键点轨迹用于驱动3D高斯分布,从而建模几何和外观。
关键创新:DIMO的主要创新在于通过神经关键点轨迹实现运动的结构化和紧凑表示,这与现有方法的直接生成方式有本质区别。
关键设计:在设计中,采用了特定的损失函数以优化运动生成的质量,并通过共享运动解码器来提高模型的泛化能力。
📊 实验亮点
实验结果显示,DIMO在多样化3D运动生成方面的表现优于现有基线方法,生成的运动在质量和多样性上均有显著提升。具体而言,DIMO能够在单次前向传播中即时生成多种运动,支持3D运动插值和语言引导生成,展示了其在实际应用中的广泛潜力。
🎯 应用场景
DIMO的研究成果在多个领域具有潜在应用价值,包括动画制作、虚拟现实、游戏开发等。通过高效生成多样化的3D运动,DIMO能够提升用户体验,并为创作者提供更多灵活的工具。此外,该技术还可能在机器人运动规划和人机交互中发挥重要作用。
📄 摘要(原文)
We present DIMO, a generative approach capable of generating diverse 3D motions for arbitrary objects from a single image. The core idea of our work is to leverage the rich priors in well-trained video models to extract the common motion patterns and then embed them into a shared low-dimensional latent space. Specifically, we first generate multiple videos of the same object with diverse motions. We then embed each motion into a latent vector and train a shared motion decoder to learn the distribution of motions represented by a structured and compact motion representation, i.e., neural key point trajectories. The canonical 3D Gaussians are then driven by these key points and fused to model the geometry and appearance. During inference time with learned latent space, we can instantly sample diverse 3D motions in a single-forward pass and support several interesting applications including 3D motion interpolation and language-guided motion generation. Our project page is available at https://linzhanm.github.io/dimo.