Vidarc: Embodied Video Diffusion Model for Closed-loop Control

作者: Yao Feng, Chendong Xiang, Xinyi Mao, Hengkai Tan, Zuyue Zhang, Shuhe Huang, Kaiwen Zheng, Haitian Liu, Hang Su, Jun Zhu

分类: cs.RO, cs.LG

发布日期: 2025-12-19

💡 一句话要点

Vidarc：用于闭环控制的具身视频扩散模型，提升机器人操作性能。

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱七：动作重定向 (Motion Retargeting)

关键词: 具身智能 视频扩散模型 机器人控制 闭环控制 逆动力学 自回归模型 数据稀缺 机器人操作

📋 核心要点

现有基于视频的机器人控制方法在数据稀缺场景下，难以兼顾具身特性和闭环控制需求，存在延迟高、接地不足等问题。
Vidarc通过自回归视频扩散模型，结合掩码逆动力学模型，利用动作相关掩码和实时反馈，实现快速准确的闭环控制。
实验表明，Vidarc在真实机器人平台上超越了现有方法，成功率提升至少15%，延迟降低91%，并展现出良好的泛化能力。

📝 摘要（中文）

在数据稀缺的环境中，机器人手臂操作由于复杂的具身动力学和多样的环境背景而极具挑战性。最近基于视频的方法通过在互联网规模的视频数据上进行预训练，在捕捉和传递时间和物理交互方面显示出巨大的潜力。然而，这些方法通常没有针对特定具身闭环控制进行优化，通常存在高延迟和不足的接地问题。本文提出了Vidarc（用于动作推理和闭环控制的视频扩散），这是一种新颖的自回归具身视频扩散方法，通过掩码逆动力学模型进行增强。通过使用与动作相关的掩码来接地视频预测，并通过缓存的自回归生成来结合实时反馈，Vidarc实现了快速、准确的闭环控制。Vidarc在一百万个跨具身episode上进行预训练，超越了最先进的基线，在真实世界部署中实现了至少15%的成功率提升和91%的延迟降低。我们还强调了其在以前未见过的机器人平台上的强大泛化和纠错能力。

🔬 方法详解

问题定义：论文旨在解决数据稀缺环境下，机器人手臂操作中存在的闭环控制问题。现有基于视频的方法虽然利用了大规模视频数据进行预训练，但未能充分针对具身机器人的特定动力学进行优化，导致控制延迟高，与实际环境的交互不足，难以实现精确控制。

核心思路：论文的核心思路是利用视频扩散模型学习机器人操作的动态过程，并通过引入掩码逆动力学模型来增强模型对动作的理解和控制能力。同时，采用缓存的自回归生成方式，结合实时反馈，降低控制延迟，提高控制精度。

技术框架：Vidarc的整体框架是一个自回归视频扩散模型，它以历史视频帧和当前状态作为输入，预测未来的视频帧。该模型包含一个视频扩散模型和一个掩码逆动力学模型。视频扩散模型负责生成高质量的未来视频帧，掩码逆动力学模型则负责根据预测的视频帧推断出相应的动作。通过自回归的方式，模型可以逐步生成未来的视频序列，并根据实时反馈进行调整。

关键创新：Vidarc的关键创新在于以下几个方面：1) 提出了具身视频扩散模型，更适合机器人控制任务；2) 引入了掩码逆动力学模型，增强了模型对动作的理解和控制能力；3) 采用了缓存的自回归生成方式，降低了控制延迟。与现有方法相比，Vidarc更注重具身特性和闭环控制，能够实现更快速、更准确的机器人控制。

关键设计：Vidarc的关键设计包括：1) 使用了Transformer架构作为视频扩散模型的主干网络；2) 采用了掩码机制来约束逆动力学模型的输出，使其更加关注与动作相关的区域；3) 使用了缓存机制来存储历史视频帧和状态，从而加速自回归生成过程；4) 损失函数包括视频重建损失、逆动力学损失和动作预测损失。

🖼️ 关键图片

📊 实验亮点

Vidarc在真实机器人平台上进行了实验验证，结果表明，Vidarc的性能显著优于现有方法。具体而言，Vidarc在成功率方面至少提升了15%，在延迟方面降低了91%。此外，Vidarc还展现出良好的泛化能力，能够在以前未见过的机器人平台上进行操作。

🎯 应用场景

Vidarc具有广泛的应用前景，可应用于各种机器人操作任务，如装配、抓取、导航等。该研究成果有助于提升机器人在复杂环境中的自主操作能力，降低对人工干预的依赖，提高生产效率。未来，Vidarc有望应用于智能制造、医疗机器人、家庭服务机器人等领域。

📄 摘要（原文）

Robotic arm manipulation in data-scarce settings is a highly challenging task due to the complex embodiment dynamics and diverse contexts. Recent video-based approaches have shown great promise in capturing and transferring the temporal and physical interactions by pre-training on Internet-scale video data. However, such methods are often not optimized for the embodiment-specific closed-loop control, typically suffering from high latency and insufficient grounding. In this paper, we present Vidarc (Video Diffusion for Action Reasoning and Closed-loop Control), a novel autoregressive embodied video diffusion approach augmented by a masked inverse dynamics model. By grounding video predictions with action-relevant masks and incorporating real-time feedback through cached autoregressive generation, Vidarc achieves fast, accurate closed-loop control. Pre-trained on one million cross-embodiment episodes, Vidarc surpasses state-of-the-art baselines, achieving at least a 15% higher success rate in real-world deployment and a 91% reduction in latency. We also highlight its robust generalization and error correction capabilities across previously unseen robotic platforms.

Vidarc: Embodied Video Diffusion Model for Closed-loop Control

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理