ImitDiff: Transferring Foundation-Model Priors for Distraction Robust Visuomotor Policy

📄 arXiv: 2502.09649v2 📥 PDF

作者: Yuhang Dong, Haizhou Ge, Yupei Zeng, Jiangning Zhang, Beiwen Tian, Hongrui Zhu, Yufei Jia, Ruixiang Wang, Zhucun Xue, Guyue Zhou, Longhua Ma, Guanzhong Tian

分类: cs.AI, cs.CV, cs.LG, cs.RO

发布日期: 2025-02-11 (更新: 2025-11-08)


💡 一句话要点

ImitDiff:利用预训练模型先验知识,提升视觉运动策略在复杂场景下的鲁棒性

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉运动模仿学习 扩散模型 视觉语言模型 机器人操作 复杂场景 视觉干扰 双分辨率感知 Transformer

📋 核心要点

  1. 现有视觉运动模仿学习策略在简单场景表现良好,但在复杂场景和视觉干扰下性能显著下降。
  2. ImitDiff利用视觉-语言基础模型的先验知识,通过语义掩码引导双分辨率感知和动作生成,聚焦任务相关区域。
  3. 实验表明,ImitDiff在复杂场景下优于现有方法,并在零样本设置中展现出强大的泛化能力和更快的推理速度。

📝 摘要(中文)

本文提出ImitDiff,一种基于扩散模型的模仿学习策略,旨在提升视觉运动策略在复杂和干扰场景下的鲁棒性。该方法利用视觉-语言基础模型的预训练先验,将高层指令转化为像素级的视觉语义掩码。这些掩码指导一个双分辨率感知流程,从低分辨率观测中捕获全局上下文,从高分辨率观测中提取精细局部特征,使策略能够专注于任务相关区域。此外,引入了一致性驱动的扩散Transformer动作头,连接视觉语义条件和实时动作生成。实验表明,ImitDiff在复杂场景和视觉干扰下,优于现有的视觉-语言操作框架和视觉运动模仿学习策略,并在新物体和视觉干扰的零样本设置中表现出强大的泛化能力。一致性驱动的动作头在保持竞争力的成功率的同时,推理速度提高了一个数量级。

🔬 方法详解

问题定义:现有的视觉运动模仿学习方法在场景复杂度和视觉干扰增加时,性能会显著下降。这些方法难以有效区分任务相关的视觉信息和干扰因素,导致策略学习不稳定,泛化能力差。因此,需要一种能够有效应对复杂场景和视觉干扰的视觉运动模仿学习方法。

核心思路:ImitDiff的核心思路是利用预训练的视觉-语言基础模型的先验知识,将高层指令转化为像素级别的视觉语义掩码,从而引导策略关注任务相关的区域。通过这种方式,策略可以更好地理解场景,并生成更准确的动作。同时,采用双分辨率感知流程,兼顾全局上下文和局部细节。

技术框架:ImitDiff的整体框架包含以下几个主要模块:1) 视觉-语言模型:将高层指令转化为视觉语义掩码。2) 双分辨率感知模块:从低分辨率图像中提取全局上下文信息,从高分辨率图像中提取局部细节信息。3) 扩散Transformer动作头:基于视觉语义掩码和双分辨率感知结果,生成动作。该动作头采用一致性驱动的训练方式,提高推理速度。

关键创新:ImitDiff的关键创新在于:1) 利用视觉-语言基础模型的先验知识,通过语义掩码引导策略关注任务相关区域。2) 提出双分辨率感知流程,兼顾全局上下文和局部细节。3) 引入一致性驱动的扩散Transformer动作头,在保证性能的同时,显著提高推理速度。

关键设计:视觉-语言模型采用预训练的CLIP模型。双分辨率感知模块使用卷积神经网络提取特征。扩散Transformer动作头采用Transformer架构,并使用扩散模型生成动作。一致性驱动的训练方式通过最小化不同扩散步骤生成的动作之间的一致性损失来提高推理速度。损失函数包括模仿学习损失、语义掩码损失和一致性损失。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,ImitDiff在复杂场景和视觉干扰下,显著优于现有的视觉-语言操作框架和视觉运动模仿学习策略。例如,在物体抓取任务中,ImitDiff的成功率比现有方法提高了10%-20%。此外,ImitDiff在零样本设置中表现出强大的泛化能力,能够成功抓取新的物体和应对新的视觉干扰。一致性驱动的动作头在保持竞争力的成功率的同时,推理速度提高了一个数量级。

🎯 应用场景

ImitDiff具有广泛的应用前景,例如在家庭服务机器人、工业机器人、自动驾驶等领域。它可以帮助机器人在复杂和干扰的环境中完成各种任务,例如物体抓取、装配、导航等。该研究的成果有助于提高机器人的智能化水平和适应能力,使其能够更好地服务于人类。

📄 摘要(原文)

Visuomotor imitation learning policies enable robots to efficiently acquire manipulation skills from visual demonstrations. However, as scene complexity and visual distractions increase, policies that perform well in simple settings often experience substantial performance degradation. To address this challenge, we propose ImitDiff, a diffusion-based imitation learning policy guided by fine-grained semantics within a dual-resolution workflow. Leveraging pretrained priors of vision-language foundation models, our method transforms high-level instructions into pixel-level visual semantic masks. These masks guide a dual-resolution perception pipeline that captures both global context (e.g., overall layout) from low-resolution observation and fine-grained local features (e.g., geometric details) from high-resolution observation, enabling the policy to focus on task-relevant regions. Additionally, we introduce a consistency-driven diffusion transformer action head that bridges visual semantic conditions and real-time action generation. Extensive experiments demonstrate that ImitDiff outperforms state-of-the-art vision-language manipulation frameworks, as well as visuomotor imitation learning policies, particularly under increased scene complexity and visual distractions. Notably, ImitDiff exhibits strong generalization in zero-shot settings involving novel objects and visual distractions. Furthermore, our consistency-driven action head achieves an order-of-magnitude improvement in inference speed while maintaining competitive success rates.