Detecting is Easy, Adapting is Hard: Local Expert Growth for Visual Model-Based Reinforcement Learning under Distribution Shift
作者: Haiyang Zhao
分类: cs.LG
发布日期: 2026-04-30
💡 一句话要点
提出JEPA-Indexed Local Expert Growth,解决视觉MBRL在分布偏移下的适应难题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 视觉MBRL 分布偏移 领域自适应 局部专家 强化学习
📋 核心要点
- 视觉MBRL在分布偏移下泛化性差,现有方法难以有效转化为动作层面的校正。
- 提出JEPA-Indexed Local Expert Growth,利用冻结的JEPA表示索引问题,通过局部专家进行动作校正。
- 实验表明,harder-pair变体在保持同分布性能的同时,显著提升了分布外泛化能力,且学习到的专家可复用。
📝 摘要(中文)
视觉模型驱动的强化学习(MBRL)智能体在训练分布上表现良好,但在测试环境发生偏移时常常失效。在视觉MBRL中,识别出偏移的发生通常比较容易;更难的是将这种识别转化为有用的动作层面的校正。我们研究了几种应对偏移的方法,包括规划惩罚、直接微调、全局残差校正和粗略门控。在我们的实验中,这些方法要么不能改善闭环控制,要么会损害同分布(ID)性能。基于这些负面结果,我们提出了JEPA-Indexed Local Expert Growth。该方法仅使用冻结的JEPA表示进行问题索引,而特定于集群的残差专家在原始控制器之上添加局部动作校正。基线控制器本身没有被修改。使用配对自举评估,我们发现最初的naive-preference变体在更严格的测试下不稳定。相比之下,harder-pair变体在所有四个评估的偏移条件下产生统计上显著的OOD改进,同时保持ID性能。当再次遇到相同的偏移时,学习到的专家仍然有用,这支持了将适应视为增量知识增长而不是重复完全重新训练的观点。我们进一步表明,可以使用简单的密度模型实现自动ID拒绝,而OOD子族之间的细粒度区分受到表示的限制。总的来说,结果表明,对于分布偏移下的视觉MBRL,主要的挑战不仅仅是注意到环境发生了变化,而是在识别出变化后应用正确的局部动作校正。
🔬 方法详解
问题定义:视觉模型驱动的强化学习(MBRL)在训练环境中表现良好,但当环境发生分布偏移时,性能会显著下降。现有方法,如规划惩罚、微调等,要么无法有效提升分布外(OOD)性能,要么会损害同分布(ID)性能,难以实现有效的动作层面校正。
核心思路:核心思想是利用预训练的表征模型(JEPA)进行环境状态的索引,并在此基础上学习局部专家,对原始控制器的动作进行残差校正。这种方法避免了直接修改原始控制器,从而更好地保持了同分布性能,同时通过局部专家实现对特定偏移的适应。
技术框架:整体框架包含三个主要部分:1) 使用冻结的JEPA模型提取视觉特征,作为环境状态的表征;2) 使用聚类算法(如K-means)对JEPA表征进行聚类,形成不同的环境状态簇;3) 为每个簇训练一个局部专家,该专家学习一个残差动作,用于校正原始控制器的输出。在实际控制过程中,首先使用JEPA提取当前状态的表征,然后将其分配到最接近的簇,最后使用该簇对应的局部专家对原始控制器的动作进行校正。
关键创新:关键创新在于使用冻结的预训练表征进行环境状态的索引,并在此基础上学习局部专家。这种方法避免了对原始控制器的全局修改,从而更好地保持了同分布性能。同时,局部专家的设计使得模型能够针对特定的分布偏移进行适应,提高了分布外泛化能力。此外,论文还提出了harder-pair变体,通过更难的样本对进行训练,进一步提升了模型的鲁棒性。
关键设计:JEPA模型使用预训练的ViT架构,冻结其参数以保证表征的稳定性。聚类算法使用K-means,簇的数量是一个超参数,需要根据具体任务进行调整。局部专家通常是一个小型神经网络,输入是JEPA表征,输出是残差动作。损失函数通常是L2损失,用于最小化预测残差动作与真实残差动作之间的差异。harder-pair变体通过选择更难区分的样本对进行训练,从而提高模型的鲁棒性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,JEPA-Indexed Local Expert Growth方法在四个不同的分布偏移条件下均取得了显著的OOD性能提升,同时保持了ID性能。Harder-pair变体表现最佳,在所有测试环境中均优于其他基线方法。此外,实验还验证了学习到的专家可以在相同偏移再次出现时被复用,体现了知识的增量式增长。
🎯 应用场景
该研究成果可应用于机器人导航、自动驾驶等领域,尤其是在复杂、动态且存在分布偏移的环境中。例如,机器人可以在不同的光照、天气条件下稳定地执行任务,自动驾驶系统可以在遇到新的交通场景或路况时快速适应。该方法通过增量式学习,降低了重新训练的成本,提高了系统的实用性。
📄 摘要(原文)
Visual model-based reinforcement learning (MBRL) agents can perform well on the training distribution, but often break down once the test environment shifts. In visual MBRL, recognizing that a shift has occurred is often the easier part; the harder part is turning that recognition into useful action-level correction. We study several ways of responding to shift, including planning penalties, direct fine-tuning, global residual correction, and coarse gating. In our experiments, these approaches either do not improve closed-loop control or hurt in-distribution (ID) performance. Based on these negative results, we propose JEPA-Indexed Local Expert Growth. The method uses a frozen JEPA representation only for problem indexing, while cluster-specific residual experts add local action corrections on top of the original controller. The baseline controller itself is not modified. Using paired-bootstrap evaluation, we find that the original naive-preference variant is not stable under stricter testing. In contrast, the harder-pair variant produces statistically significant OOD improvements on all four evaluated shift conditions while preserving ID performance. The learned experts also remain useful when the same shift is encountered again, which supports the view of adaptation as incremental knowledge growth rather than repeated full retraining. We further show that automatic ID rejection can be achieved with simple density models, whereas fine-grained discrimination among OOD sub-families is limited by the representation. Overall, the results indicate that, for visual MBRL under distribution shift, the main challenge is not simply noticing that the environment has changed, but applying the right local action correction after the change has been recognized.