VE2VF: Vision-Enabled to Vision-Free Distillation via Real-world Reinforcement Learning for Robust Contact-Rich Manipulation

📄 arXiv: 2605.29564v1 📥 PDF

作者: Victor Kowalski, Chengxi Li, Dongheui Lee

分类: cs.RO

发布日期: 2026-05-28


💡 一句话要点

提出VE2VF,通过真实世界强化学习蒸馏实现接触式操作的鲁棒性

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 强化学习 机器人操作 接触式操作 教师-学生蒸馏 鲁棒性 泛化能力 人机协作 真实世界训练

📋 核心要点

  1. 基于视觉的强化学习策略在接触式操作中表现出色,但容易过拟合训练时的视觉条件,泛化能力受限。
  2. VE2VF方法利用人机协作强化学习,通过视觉教师策略向无视觉学生策略蒸馏知识,提升鲁棒性和泛化性。
  3. 在NIST装配基准测试中,VE2VF仅需50分钟训练即可达到95%的成功率,并在未见过的任务变体中表现出色。

📝 摘要(中文)

本文提出了一种人机协作强化学习框架,通过教师-学生蒸馏,在真实环境中训练,无需领域随机化或数据增强,即可在多个任务变体中实现鲁棒性能。一个基于视觉的教师策略将其知识提炼到一个无视觉的学生策略中,后者仅依赖于姿态、扭转和力/力矩传感,从而结合了快速训练和强大的任务泛化能力。在真实世界的NIST装配基准板上,我们的方法在3个代表性任务上经过大约50分钟的训练后,实现了95%的总体成功率,并且能够鲁棒地泛化到8个未见过的任务变体。通过蒸馏进行微调,可以在最具挑战性的任务上实现完全成功。实验证明,由此产生的策略在鲁棒性和适应性方面都优于基线方法。

🔬 方法详解

问题定义:现有基于视觉的强化学习方法在接触式机器人操作中,虽然能利用视觉信息加速学习,但容易受到训练环境视觉条件的影响,导致策略在新的视觉环境下泛化能力差。领域随机化和数据增强等方法虽然可以缓解这个问题,但往往需要大量的计算资源和领域知识。

核心思路:VE2VF的核心思路是通过教师-学生蒸馏,将一个基于视觉的教师策略的知识迁移到一个无视觉的学生策略上。教师策略利用视觉信息进行快速学习,而学生策略仅依赖于姿态、扭转和力/力矩传感等本体感受信息,从而避免了对特定视觉环境的依赖,提高了策略的鲁棒性和泛化能力。

技术框架:VE2VF框架包含以下几个主要部分:1) 基于视觉的教师策略训练:使用强化学习算法(具体算法未知)训练一个基于视觉的策略,使其能够完成特定的接触式操作任务。2) 无视觉的学生策略训练:使用强化学习算法训练一个仅依赖于本体感受信息的策略。3) 教师-学生蒸馏:利用教师策略的输出来指导学生策略的学习,使得学生策略能够模仿教师策略的行为,从而获得教师策略的知识。4) 人机协作:人工干预可能被用于引导探索或纠正错误。

关键创新:VE2VF的关键创新在于利用教师-学生蒸馏,将视觉信息转化为本体感受信息,从而避免了对特定视觉环境的依赖,提高了策略的鲁棒性和泛化能力。与传统的领域随机化和数据增强方法相比,VE2VF无需大量的计算资源和领域知识,可以直接在真实环境中进行训练。

关键设计:论文中没有详细说明具体的强化学习算法、网络结构、损失函数等技术细节。但是,可以推测,教师策略的网络结构可能包含卷积神经网络等视觉特征提取模块,而学生策略的网络结构可能包含循环神经网络等时序信息处理模块。蒸馏损失函数可能采用行为克隆或Dagger等方法,使得学生策略能够模仿教师策略的行为。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

VE2VF在真实世界的NIST装配基准板上进行了实验,结果表明,该方法在3个代表性任务上经过大约50分钟的训练后,实现了95%的总体成功率,并且能够鲁棒地泛化到8个未见过的任务变体。与基线方法相比,VE2VF在鲁棒性和适应性方面都表现出显著的优势。通过蒸馏进行微调,可以在最具挑战性的任务上实现完全成功。

🎯 应用场景

VE2VF方法可应用于各种需要高鲁棒性和泛化能力的接触式机器人操作任务,例如精密装配、医疗手术、以及在复杂或未知的环境中进行操作。该方法降低了对环境感知系统的依赖,使得机器人能够在更广泛的场景中稳定可靠地工作,具有重要的实际应用价值。

📄 摘要(原文)

When using reinforcement learning (RL) for contact-rich robotic manipulation, vision can provide task-relevant information that accelerates learning beyond what proprioception alone can achieve. However, vision-enabled policies tend to overfit to the visual conditions seen during training, limiting their robustness and transferability. We present a human-in-the-loop RL framework that employs teacher-student distillation to achieve robust performance across multiple task variants, trained entirely in the real world without requiring domain randomization or data augmentation. A vision-enabled teacher distills its knowledge into a vision-free student that relies solely on pose, twist, and wrench sensing, combining fast training with strong task generalization. On the real-world NIST assembly benchmark board, our approach achieves 95\% overall success after approximately 50 minutes of training on 3 representative tasks, including robust generalization to 8 unseen task variants. Fine-tuning with distillation achieves full success on the most challenging task. We demonstrate that the resulting policies outperform baselines in both robustness and adaptability.