Perception Stitching: Zero-Shot Perception Encoder Transfer for Visuomotor Robot Policies

📄 arXiv: 2406.19971v2 📥 PDF

作者: Pingcheng Jian, Easop Lee, Zachary Bell, Michael M. Zavlanos, Boyuan Chen

分类: cs.RO

发布日期: 2024-06-28 (更新: 2025-01-01)

备注: TMLR, 2024

期刊: Published in Transactions on Machine Learning Research (11/2024)


💡 一句话要点

感知拼接:用于视觉运动机器人策略的零样本感知编码器迁移

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 机器人 视觉运动策略 模仿学习 零样本学习 感知拼接

📋 核心要点

  1. 现有基于视觉的机器人模仿学习方法难以适应视觉环境的剧烈变化,限制了策略的泛化能力。
  2. 论文提出感知拼接方法,通过对齐不同策略的视觉特征,实现视觉编码器的模块化和重用。
  3. 实验表明,该方法在真实世界的操作任务中实现了零样本成功,显著优于基线方法。

📝 摘要(中文)

基于视觉的模仿学习在赋予机器人各种视觉观察下的运动技能方面展现出良好的能力。然而,当前的视觉运动策略无法适应视觉观察的剧烈变化。我们提出了感知拼接,通过直接拼接视觉编码器的新组合,实现对大型视觉变化的强大零样本适应。我们的核心思想是通过对齐不同视觉运动策略之间的潜在视觉特征,来增强视觉编码器的模块化。我们的方法将感知知识与下游运动技能解耦,并允许通过将视觉编码器直接拼接到一个在部分不同视觉条件下训练的策略网络,来重用视觉编码器。我们在各种模拟和真实世界的操作任务中评估了我们的方法。虽然基线方法在所有尝试中都失败了,但我们的方法可以在真实世界的视觉运动任务中实现零样本成功。我们对策略网络学习到的特征的定量和定性分析,为我们提出的方法的高性能提供了更多的见解。

🔬 方法详解

问题定义:现有基于视觉的机器人策略在面对新的视觉环境时,泛化能力较差。即使是微小的视觉变化,例如光照、视角或背景的改变,都可能导致策略性能显著下降。现有的模仿学习方法通常需要针对每个新的视觉环境重新训练策略,这既耗时又耗力。因此,如何使机器人策略能够零样本适应新的视觉环境是一个重要的挑战。

核心思路:论文的核心思路是将视觉感知模块与运动控制模块解耦,并使视觉感知模块具有模块化的特性。通过对齐不同策略的视觉特征,使得不同的视觉编码器可以像“拼接”一样组合使用,从而适应新的视觉环境。这种方法允许策略重用已有的视觉知识,而无需重新训练整个策略。

技术框架:该方法包含以下几个主要模块:1) 多个在不同视觉条件下训练的视觉运动策略;2) 视觉编码器,用于提取视觉特征;3) 策略网络,用于根据视觉特征生成运动指令;4) 特征对齐模块,用于对齐不同视觉编码器提取的视觉特征。整体流程是,首先训练多个视觉运动策略,然后在训练过程中,通过特征对齐模块,使得不同视觉编码器提取的视觉特征具有相似的语义信息。在测试阶段,可以根据新的视觉环境,选择合适的视觉编码器,并将它们拼接在一起,然后输入到策略网络中,生成运动指令。

关键创新:该方法最重要的技术创新点在于提出了感知拼接的概念,即通过对齐不同视觉编码器的特征空间,使得它们可以像模块一样组合使用,从而适应新的视觉环境。与现有方法的本质区别在于,现有方法通常将视觉感知和运动控制视为一个整体,而该方法将它们解耦,并使视觉感知模块具有模块化的特性。

关键设计:关键设计包括:1) 特征对齐损失函数,用于对齐不同视觉编码器的特征空间。具体来说,可以使用对比损失或三元组损失来拉近相同语义信息的特征,并推开不同语义信息的特征。2) 视觉编码器的网络结构,可以使用卷积神经网络或Transformer等结构。3) 策略网络的网络结构,可以使用多层感知机或循环神经网络等结构。4) 拼接方式,可以将多个视觉编码器的输出特征进行拼接或加权平均。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该方法在模拟和真实世界的操作任务中进行了评估。在真实世界的实验中,基线方法全部失败,而该方法实现了零样本成功。对策略网络学习到的特征的定量和定性分析表明,该方法能够有效地解耦视觉感知和运动控制,并使视觉编码器具有模块化的特性。实验结果表明,该方法能够显著提高机器人策略的泛化能力。

🎯 应用场景

该研究成果可应用于各种需要机器人适应不同视觉环境的场景,例如:家庭服务机器人、工业自动化、自动驾驶等。通过感知拼接,机器人可以快速适应新的环境,提高其灵活性和鲁棒性。此外,该方法还可以用于迁移学习,将已有的知识迁移到新的任务中,从而降低训练成本。

📄 摘要(原文)

Vision-based imitation learning has shown promising capabilities of endowing robots with various motion skills given visual observation. However, current visuomotor policies fail to adapt to drastic changes in their visual observations. We present Perception Stitching that enables strong zero-shot adaptation to large visual changes by directly stitching novel combinations of visual encoders. Our key idea is to enforce modularity of visual encoders by aligning the latent visual features among different visuomotor policies. Our method disentangles the perceptual knowledge with the downstream motion skills and allows the reuse of the visual encoders by directly stitching them to a policy network trained with partially different visual conditions. We evaluate our method in various simulated and real-world manipulation tasks. While baseline methods failed at all attempts, our method could achieve zero-shot success in real-world visuomotor tasks. Our quantitative and qualitative analysis of the learned features of the policy network provides more insights into the high performance of our proposed method.