Dexterous World Models
作者: Byungjun Kim, Taeksoo Kim, Junyoung Lee, Hanbyul Joo
分类: cs.CV
发布日期: 2025-12-19
备注: Project Page: snuvclab.github.io/dwm
💡 一句话要点
提出灵巧世界模型DWM,实现基于视频扩散的交互式数字孪生
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱四:生成式动作 (Generative Motion) 支柱五:交互与反应 (Interaction & Reaction) 支柱六:视频提取与匹配 (Video Extraction)
关键词: 视频扩散模型 交互式数字孪生 具身模拟 场景理解 动作生成
📋 核心要点
- 现有数字孪生主要为静态,缺乏具身交互能力,限制了其在模拟和控制方面的应用。
- DWM通过场景和动作条件下的视频扩散,模拟人类动作对静态3D场景的影响,生成逼真的交互视频。
- DWM在混合数据集上训练,结合合成数据的精确监督和真实数据的多样性,实现了逼真的交互效果。
📝 摘要(中文)
本文提出灵巧世界模型(DWM),这是一个场景-动作条件下的视频扩散框架,用于建模灵巧的人类动作如何引起静态3D场景的动态变化。给定静态3D场景渲染和以自我为中心的手部运动序列,DWM生成时间上连贯的视频,描绘合理的人与场景交互。该方法通过以下方式调节视频生成:(1)遵循指定相机轨迹的静态场景渲染,以确保空间一致性;(2)以自我为中心的手部网格渲染,编码几何和运动线索,以直接建模动作条件下的动态。为了训练DWM,构建了一个混合交互视频数据集。合成的以自我为中心的交互为联合运动和操作学习提供完全对齐的监督,而固定摄像机的真实世界视频则贡献了多样且逼真的对象动态。实验表明,DWM能够实现逼真且物理上合理的交互,例如抓取、打开和移动对象,同时保持相机和场景一致性。该框架代表了基于视频扩散的交互式数字孪生的第一步,并实现了来自以自我为中心动作的具身模拟。
🔬 方法详解
问题定义:现有数字孪生技术主要关注静态场景的重建和可视化,缺乏对交互行为的建模能力。这限制了数字孪生在机器人控制、虚拟现实等领域的应用,无法模拟真实世界中人与环境的动态交互。现有方法难以生成逼真、物理上合理的交互视频,尤其是在以自我为中心的视角下。
核心思路:DWM的核心思路是利用视频扩散模型学习场景和动作之间的条件依赖关系。通过将静态3D场景渲染和以自我为中心的手部运动序列作为条件输入,DWM能够生成与输入条件一致的动态交互视频。这种方法将交互建模问题转化为一个条件视频生成问题,利用了视频扩散模型强大的生成能力。
技术框架:DWM的整体框架包括以下几个主要模块:1) 静态场景渲染模块:负责将3D场景渲染成图像序列,作为视频扩散模型的条件输入之一。2) 手部运动编码模块:将以自我为中心的手部运动序列编码成手部网格渲染,作为视频扩散模型的另一个条件输入。3) 视频扩散模型:基于场景渲染和手部运动编码,生成动态交互视频。该模型采用U-Net结构,通过逐步去噪的方式生成视频帧。
关键创新:DWM的关键创新在于将视频扩散模型应用于交互建模,并提出了场景-动作条件下的视频生成方法。与传统的基于物理引擎的交互模拟方法相比,DWM能够生成更逼真、更自然的交互效果,无需手动设计复杂的物理规则。此外,DWM还提出了一个混合数据集训练策略,结合了合成数据和真实数据,提高了模型的泛化能力。
关键设计:DWM的关键设计包括:1) 使用相机轨迹控制的静态场景渲染,保证空间一致性。2) 使用手部网格渲染编码手部几何和运动信息,实现动作条件下的动态建模。3) 混合数据集训练策略,利用合成数据提供精确监督,利用真实数据增强真实感。4) 损失函数包括重构损失和对抗损失,用于提高生成视频的质量和真实感。具体参数设置和网络结构细节在论文中有详细描述,此处未知。
🖼️ 关键图片
📊 实验亮点
DWM在实验中展示了逼真且物理上合理的交互效果,例如抓取、打开和移动物体,同时保持相机和场景的一致性。通过与现有方法的对比,DWM在生成视频的真实感和交互的合理性方面取得了显著提升。具体的性能数据和对比基线在论文中有详细描述,此处未知。
🎯 应用场景
DWM具有广泛的应用前景,包括机器人控制、虚拟现实、游戏开发等领域。例如,可以利用DWM生成机器人与环境交互的模拟视频,用于训练机器人的控制策略。在虚拟现实中,DWM可以生成更逼真的交互体验,增强用户的沉浸感。在游戏开发中,DWM可以用于生成游戏角色的动画和交互行为,提高游戏的真实感和趣味性。
📄 摘要(原文)
Recent progress in 3D reconstruction has made it easy to create realistic digital twins from everyday environments. However, current digital twins remain largely static and are limited to navigation and view synthesis without embodied interactivity. To bridge this gap, we introduce Dexterous World Model (DWM), a scene-action-conditioned video diffusion framework that models how dexterous human actions induce dynamic changes in static 3D scenes. Given a static 3D scene rendering and an egocentric hand motion sequence, DWM generates temporally coherent videos depicting plausible human-scene interactions. Our approach conditions video generation on (1) static scene renderings following a specified camera trajectory to ensure spatial consistency, and (2) egocentric hand mesh renderings that encode both geometry and motion cues to model action-conditioned dynamics directly. To train DWM, we construct a hybrid interaction video dataset. Synthetic egocentric interactions provide fully aligned supervision for joint locomotion and manipulation learning, while fixed-camera real-world videos contribute diverse and realistic object dynamics. Experiments demonstrate that DWM enables realistic and physically plausible interactions, such as grasping, opening, and moving objects, while maintaining camera and scene consistency. This framework represents a first step toward video diffusion-based interactive digital twins and enables embodied simulation from egocentric actions.