Pre-trained Visual Representations Generalize Where it Matters in Model-Based Reinforcement Learning

📄 arXiv: 2509.12531v1 📥 PDF

作者: Scott Jones, Liyou Zhou, Sebastian W. Pattinson

分类: cs.RO, cs.AI, cs.LG, eess.SY

发布日期: 2025-09-16


💡 一句话要点

预训练视觉表征显著提升模型强化学习在视觉域偏移下的泛化能力

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 预训练视觉模型 模型强化学习 视觉域偏移 泛化能力 机器人学习

📋 核心要点

  1. 传统视觉运动策略学习方法在视觉场景变化时泛化能力差,是机器人学习领域的重要挑战。
  2. 该论文探索了预训练视觉模型(PVM)在模型强化学习(MBRL)中的应用,以提升视觉域偏移下的泛化能力。
  3. 实验结果表明,PVM在严重视觉域偏移下显著优于从头训练的模型,部分微调策略能进一步提升性能。

📝 摘要(中文)

在视觉运动策略学习中,机器人智能体的控制策略直接从视觉输入中获得。通常的方法是从头开始联合训练策略和视觉编码器,但这种方法在新的视觉场景变化下的泛化能力较差。使用预训练视觉模型(PVM)来指导策略网络可以提高模型无关强化学习(MFRL)的鲁棒性。模型强化学习(MBRL)的最新进展表明,MBRL比MFRL具有更高的样本效率。然而,与直觉相反的是,现有的工作发现PVM在MBRL中效果不佳。本文研究了PVM在MBRL中的有效性,特别是在视觉域偏移下的泛化能力。结果表明,在严重偏移的情况下,PVM比从头开始训练的基线模型表现更好。进一步研究了不同程度的PVM微调的影响。结果表明,部分微调可以在最极端的分布偏移下保持最高的平均任务性能。结果表明,PVM在提高视觉策略学习的鲁棒性方面非常成功,为在基于模型的机器人学习应用中更广泛地采用PVM提供了有力的证据。

🔬 方法详解

问题定义:论文旨在解决在模型强化学习(MBRL)中,视觉域偏移导致策略泛化能力差的问题。现有方法通常从头开始训练视觉编码器和策略网络,对视觉环境的变化非常敏感,难以适应新的场景。即使使用预训练视觉模型在模型无关强化学习中取得了成功,但在MBRL中效果并不理想。

核心思路:论文的核心思路是利用预训练视觉模型(PVM)的强大表征能力,并结合MBRL的样本效率优势,从而提升视觉策略在视觉域偏移下的泛化能力。通过在MBRL框架中使用PVM作为视觉编码器,并探索不同的微调策略,使模型能够更好地适应新的视觉环境。

技术框架:整体框架包含一个预训练的视觉模型(PVM)作为视觉编码器,一个动态模型用于预测环境状态的转移,以及一个策略网络用于选择动作。PVM将原始视觉输入编码为低维状态表示,动态模型基于当前状态和动作预测下一个状态,策略网络基于当前状态选择最优动作。整个框架通过MBRL算法进行训练,目标是最大化累积奖励。

关键创新:论文的关键创新在于证明了预训练视觉模型在模型强化学习中对于提升视觉域偏移下的泛化能力是有效的,并探索了不同的微调策略。与之前认为PVM在MBRL中无效的观点不同,该论文表明PVM在特定场景下可以显著提升性能。此外,部分微调策略的发现也为PVM在MBRL中的应用提供了新的思路。

关键设计:论文的关键设计包括:1) 使用预训练的视觉模型(例如,在ImageNet上预训练的模型)作为视觉编码器;2) 探索不同的微调策略,包括完全微调、部分微调和不微调;3) 使用MBRL算法训练动态模型和策略网络,例如,使用PETS(Probabilistic Ensembles with Trajectory Sampling)算法;4) 设计具有视觉域偏移的实验环境,例如,改变光照、背景和物体颜色等。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,在具有严重视觉域偏移的场景中,使用预训练视觉模型(PVM)的MBRL方法比从头开始训练的基线模型表现更好。具体来说,部分微调的PVM在最极端的分布偏移下保持了最高的平均任务性能。这些结果表明,PVM可以显著提升MBRL在视觉域偏移下的泛化能力。

🎯 应用场景

该研究成果可应用于各种机器人视觉任务,例如自动驾驶、机器人操作和视觉导航。通过利用预训练视觉模型,机器人可以在未知的、具有视觉差异的环境中更鲁棒地执行任务。这对于需要在真实世界中部署的机器人系统尤为重要,因为真实世界的环境往往是复杂且多变的。未来的研究可以进一步探索如何将PVM与MBRL相结合,以实现更高效、更鲁棒的机器人学习。

📄 摘要(原文)

In visuomotor policy learning, the control policy for the robotic agent is derived directly from visual inputs. The typical approach, where a policy and vision encoder are trained jointly from scratch, generalizes poorly to novel visual scene changes. Using pre-trained vision models (PVMs) to inform a policy network improves robustness in model-free reinforcement learning (MFRL). Recent developments in Model-based reinforcement learning (MBRL) suggest that MBRL is more sample-efficient than MFRL. However, counterintuitively, existing work has found PVMs to be ineffective in MBRL. Here, we investigate PVM's effectiveness in MBRL, specifically on generalization under visual domain shifts. We show that, in scenarios with severe shifts, PVMs perform much better than a baseline model trained from scratch. We further investigate the effects of varying levels of fine-tuning of PVMs. Our results show that partial fine-tuning can maintain the highest average task performance under the most extreme distribution shifts. Our results demonstrate that PVMs are highly successful in promoting robustness in visual policy learning, providing compelling evidence for their wider adoption in model-based robotic learning applications.