Pre-trained Visual Representations Generalize Where it Matters in Model-Based Reinforcement Learning

📄 arXiv: 2509.12531v1 📥 PDF

作者: Scott Jones, Liyou Zhou, Sebastian W. Pattinson

分类: cs.RO, cs.AI, cs.LG, eess.SY

发布日期: 2025-09-16


💡 一句话要点

预训练视觉表征显著提升模型强化学习在视觉域偏移下的泛化能力

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 预训练视觉模型 模型强化学习 视觉域偏移 泛化能力 部分微调

📋 核心要点

  1. 现有视觉运动策略学习方法在视觉场景变化下的泛化能力不足,是由于策略和视觉编码器联合训练导致的。
  2. 该论文的核心思想是利用预训练视觉模型(PVM)来提升模型强化学习(MBRL)在视觉域偏移下的泛化能力。
  3. 实验结果表明,在严重视觉域偏移下,经过部分微调的PVM显著优于从头训练的模型,验证了PVM在MBRL中的有效性。

📝 摘要(中文)

在视觉运动策略学习中,机器人智能体的控制策略直接从视觉输入中获得。通常的方法是从头开始联合训练策略和视觉编码器,但这种方法在新的视觉场景变化下的泛化能力较差。使用预训练视觉模型(PVM)来指导策略网络可以提高模型无关强化学习(MFRL)的鲁棒性。模型强化学习(MBRL)的最新进展表明,MBRL比MFRL具有更高的样本效率。然而,与直觉相反的是,现有的工作发现PVM在MBRL中效果不佳。本文研究了PVM在MBRL中的有效性,特别是在视觉域偏移下的泛化能力。结果表明,在严重偏移的情况下,PVM比从头开始训练的基线模型表现更好。进一步研究了不同程度的PVM微调的影响。结果表明,部分微调可以在最极端的分布偏移下保持最高的平均任务性能。结果表明,PVM在提高视觉策略学习的鲁棒性方面非常成功,为在基于模型的机器人学习应用中更广泛地采用PVM提供了有力的证据。

🔬 方法详解

问题定义:论文旨在解决模型强化学习(MBRL)在视觉域偏移下泛化能力差的问题。现有方法通常从头开始训练视觉编码器和策略网络,导致模型对新的视觉场景变化不鲁棒。即使使用预训练视觉模型(PVM),在MBRL中的效果也不如在模型无关强化学习(MFRL)中显著。

核心思路:论文的核心思路是利用PVM的强大表征能力,并通过适当的微调策略,使其能够更好地适应MBRL的任务需求,从而提升模型在视觉域偏移下的泛化能力。关键在于找到一个平衡点,既能利用PVM的先验知识,又能避免过度微调导致模型过拟合到特定环境。

技术框架:整体框架包括以下几个主要模块:1) 预训练视觉模型(PVM):使用在大型数据集上预训练的视觉模型作为视觉编码器的初始化。2) 模型强化学习(MBRL)算法:使用MBRL算法来学习环境模型和策略。3) 微调策略:研究不同程度的PVM微调对性能的影响,包括完全微调、部分微调和不微调。4) 评估指标:使用在不同视觉域偏移下的任务性能作为评估指标。

关键创新:论文的关键创新在于发现PVM在MBRL中并非总是有效,并提出了部分微调策略来解决这个问题。通过实验证明,部分微调可以在保持PVM泛化能力的同时,使其适应特定的MBRL任务,从而在视觉域偏移下获得更好的性能。

关键设计:论文的关键设计包括:1) 选择合适的预训练视觉模型,例如在ImageNet等大型数据集上预训练的模型。2) 设计合适的微调策略,例如只微调PVM的部分层,或者使用较小的学习率进行微调。3) 使用合适的MBRL算法,例如PETS、PILCO等。4) 设计具有不同程度视觉域偏移的实验环境,例如改变光照、纹理、背景等。

📊 实验亮点

实验结果表明,在具有严重视觉域偏移的场景中,经过部分微调的PVM比从头开始训练的基线模型表现更好。具体来说,部分微调的PVM在平均任务性能上显著优于其他微调策略,证明了其在提高视觉策略学习鲁棒性方面的有效性。该研究为PVM在基于模型的机器人学习应用中的广泛应用提供了有力的证据。

🎯 应用场景

该研究成果可应用于各种需要机器人与视觉环境交互的场景,例如自动驾驶、机器人导航、工业自动化等。通过提升机器人在视觉变化环境下的鲁棒性,可以降低部署成本,提高系统的可靠性和安全性。未来,该方法可以进一步扩展到更复杂的任务和环境,例如多模态感知、复杂操作等。

📄 摘要(原文)

In visuomotor policy learning, the control policy for the robotic agent is derived directly from visual inputs. The typical approach, where a policy and vision encoder are trained jointly from scratch, generalizes poorly to novel visual scene changes. Using pre-trained vision models (PVMs) to inform a policy network improves robustness in model-free reinforcement learning (MFRL). Recent developments in Model-based reinforcement learning (MBRL) suggest that MBRL is more sample-efficient than MFRL. However, counterintuitively, existing work has found PVMs to be ineffective in MBRL. Here, we investigate PVM's effectiveness in MBRL, specifically on generalization under visual domain shifts. We show that, in scenarios with severe shifts, PVMs perform much better than a baseline model trained from scratch. We further investigate the effects of varying levels of fine-tuning of PVMs. Our results show that partial fine-tuning can maintain the highest average task performance under the most extreme distribution shifts. Our results demonstrate that PVMs are highly successful in promoting robustness in visual policy learning, providing compelling evidence for their wider adoption in model-based robotic learning applications.