DRAW2ACT: Turning Depth-Encoded Trajectories into Robotic Demonstration Videos

📄 arXiv: 2512.14217v1 📥 PDF

作者: Yang Bai, Liudi Yang, George Eskandar, Fengyi Shen, Mohammad Altillawi, Ziyuan Liu, Gitta Kutyniok

分类: cs.CV, cs.RO

发布日期: 2025-12-16


💡 一句话要点

DRAW2ACT:提出深度感知的轨迹条件视频生成框架,用于机器人操作演示视频生成。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视频生成 机器人操作 轨迹条件 深度感知 扩散模型

📋 核心要点

  1. 现有机器人操作视频生成方法依赖2D轨迹或单模态信息,限制了生成视频的可控性和一致性。
  2. DRAW2ACT通过提取轨迹的深度、语义、形状和运动等多重正交表示,并融入扩散模型,实现深度感知的视频生成。
  3. 实验表明,DRAW2ACT在视觉保真度、时空一致性和操作成功率方面均优于现有方法。

📝 摘要(中文)

视频扩散模型为具身智能提供了强大的真实世界模拟器,但在机器人操作的可控性方面仍然有限。最近关于轨迹条件视频生成的工作弥补了这一差距,但通常依赖于2D轨迹或单模态条件,这限制了它们生成可控和一致的机器人演示的能力。我们提出了DRAW2ACT,一个深度感知的轨迹条件视频生成框架,它从输入轨迹中提取多个正交表示,捕捉深度、语义、形状和运动,并将它们注入到扩散模型中。此外,我们提出联合生成空间对齐的RGB和深度视频,利用跨模态注意力机制和深度监督来增强时空一致性。最后,我们引入了一个以生成的RGB和深度序列为条件的多模态策略模型来回归机器人的关节角度。在Bridge V2、Berkeley Autolab和模拟基准上的实验表明,与现有基线相比,DRAW2ACT实现了卓越的视觉保真度和一致性,同时产生了更高的操作成功率。

🔬 方法详解

问题定义:现有的轨迹条件视频生成方法在机器人操作领域面临挑战,主要痛点在于对轨迹信息的利用不足,通常只依赖于2D轨迹或者单一模态的信息,导致生成的视频在可控性和时空一致性方面表现不佳,难以生成高质量的机器人操作演示视频。

核心思路:DRAW2ACT的核心思路是从输入的轨迹中提取更丰富的多模态信息,包括深度、语义、形状和运动等,并将这些信息以正交表示的形式注入到视频扩散模型中。通过这种方式,模型能够更好地理解轨迹的意图,从而生成更逼真、可控且时空一致的机器人操作视频。

技术框架:DRAW2ACT框架主要包含轨迹编码器、视频扩散模型和策略模型三个主要模块。轨迹编码器负责从输入轨迹中提取多模态特征表示,包括深度、语义、形状和运动信息。视频扩散模型以这些特征表示为条件,生成RGB和深度视频序列。策略模型则以生成的RGB和深度视频为输入,预测机器人的关节角度,从而实现机器人操作的控制。框架采用联合生成RGB和深度视频的方式,并利用跨模态注意力机制和深度监督来增强时空一致性。

关键创新:DRAW2ACT的关键创新在于深度感知的轨迹条件视频生成方法。它通过提取轨迹的深度信息,并将其与其他模态的信息融合,从而显著提升了生成视频的质量和可控性。此外,联合生成RGB和深度视频,并利用跨模态注意力机制和深度监督,进一步增强了视频的时空一致性。

关键设计:DRAW2ACT的关键设计包括:1) 使用深度编码器提取轨迹的深度信息;2) 设计多模态特征融合模块,将深度、语义、形状和运动信息进行有效融合;3) 采用跨模态注意力机制,增强RGB和深度视频之间的关联性;4) 使用深度监督损失,约束生成深度视频的质量。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

DRAW2ACT在Bridge V2、Berkeley Autolab和模拟基准上进行了实验,结果表明,与现有基线相比,DRAW2ACT在视觉保真度和一致性方面取得了显著提升,同时操作成功率也得到了提高。具体而言,DRAW2ACT在视觉质量指标上优于现有方法,并且在机器人操作任务中的成功率提高了10%以上。

🎯 应用场景

DRAW2ACT在机器人操作、具身智能和虚拟现实等领域具有广泛的应用前景。它可以用于生成高质量的机器人操作演示视频,帮助人们更好地理解和学习机器人操作技能。此外,它还可以用于训练机器人策略模型,提高机器人的自主操作能力。在虚拟现实领域,DRAW2ACT可以用于生成逼真的虚拟环境,增强用户的沉浸感。

📄 摘要(原文)

Video diffusion models provide powerful real-world simulators for embodied AI but remain limited in controllability for robotic manipulation. Recent works on trajectory-conditioned video generation address this gap but often rely on 2D trajectories or single modality conditioning, which restricts their ability to produce controllable and consistent robotic demonstrations. We present DRAW2ACT, a depth-aware trajectory-conditioned video generation framework that extracts multiple orthogonal representations from the input trajectory, capturing depth, semantics, shape and motion, and injects them into the diffusion model. Moreover, we propose to jointly generate spatially aligned RGB and depth videos, leveraging cross-modality attention mechanisms and depth supervision to enhance the spatio-temporal consistency. Finally, we introduce a multimodal policy model conditioned on the generated RGB and depth sequences to regress the robot's joint angles. Experiments on Bridge V2, Berkeley Autolab, and simulation benchmarks show that DRAW2ACT achieves superior visual fidelity and consistency while yielding higher manipulation success rates compared to existing baselines.