Agent-Centric Visual Reinforcement Learning under Dynamic Perturbations
作者: Zhengru Fang, Yu Guo, Fei Liu, Yuang Zhang, Yihang Tao, Senkang Hu, Wenbo Ding, Yuguang Fang
分类: cs.RO
发布日期: 2026-04-27
💡 一句话要点
提出ACO-MoE框架,解决动态扰动下Agent-Centric视觉强化学习的鲁棒性问题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 视觉强化学习 动态扰动 鲁棒性 Agent-Centric 混合专家网络
📋 核心要点
- 现有视觉强化学习方法在动态视觉扰动下表现不佳,原因是扰动信息与任务信息在表征中相互纠缠。
- 提出Agent-Centric Observations with Mixture-of-Experts (ACO-MoE)框架,通过agent-centric恢复专家解耦感知与扰动。
- 在VDCS基准测试中,ACO-MoE显著优于现有方法,并在DMControl泛化任务上取得了SOTA结果,验证了其鲁棒性。
📝 摘要(中文)
视觉强化学习旨在使智能体能够从视觉观察中学习策略,但它仍然容易受到动态视觉扰动的影响,例如腐败类型的不可预测的变化。为了系统地研究这个问题,我们引入了视觉退化控制套件(VDCS),这是一个通过马尔可夫切换退化扩展DeepMind控制套件的基准,以模拟非平稳的真实世界扰动。在VDCS上的实验表明,现有方法的性能严重下降。我们通过信息论分析从理论上证明,这种失败源于基于重建的目标不可避免地将扰动伪影纠缠到潜在表示中。为了减轻这种负面影响,我们提出了具有混合专家(ACO-MoE)的Agent-Centric观察,以增强视觉RL对扰动的鲁棒性。所提出的框架利用独特的agent-centric恢复专家,实现从腐败中恢复和提取与任务相关的前景,从而在被RL智能体处理之前将感知与扰动分离。在VDCS上的大量实验表明,我们的ACO-MoE优于强大的基线,在具有挑战性的马尔可夫切换腐败下恢复了95.3%的干净性能。此外,它在具有随机颜色和视频背景扰动的DMControl泛化上实现了SOTA结果,展示了高度的鲁棒性。
🔬 方法详解
问题定义:论文旨在解决视觉强化学习在动态视觉扰动下的鲁棒性问题。现有的视觉强化学习方法在面对例如随机颜色、视频背景等动态变化的视觉扰动时,性能会显著下降。这是因为现有方法通常基于重建目标,导致学习到的潜在表示中混合了扰动信息和任务相关信息,使得智能体难以提取有效的控制策略。
核心思路:论文的核心思路是解耦视觉感知和扰动信息。通过引入Agent-Centric的视角,利用混合专家网络,分别处理扰动恢复和任务相关前景提取,从而避免扰动信息对策略学习的干扰。这种解耦的思想使得智能体能够更加专注于任务相关的特征,从而提高在动态扰动下的鲁棒性。
技术框架:ACO-MoE框架主要包含三个模块:Agent-Centric Observations模块、Mixture-of-Experts模块和强化学习Agent模块。Agent-Centric Observations模块负责将原始视觉输入转换为以智能体为中心的视角。Mixture-of-Experts模块包含多个专家网络,分别负责扰动恢复和任务相关前景提取。强化学习Agent模块则利用提取的特征学习控制策略。整体流程是:原始视觉输入经过Agent-Centric Observations模块处理后,输入到Mixture-of-Experts模块,由专家网络进行处理,最后将提取的特征输入到强化学习Agent模块进行策略学习。
关键创新:论文的关键创新在于提出了Agent-Centric Observations和Mixture-of-Experts相结合的框架。Agent-Centric Observations能够提供更加聚焦于智能体的视角,减少背景信息的干扰。Mixture-of-Experts能够将扰动恢复和任务相关前景提取分离,避免信息纠缠。与现有方法相比,ACO-MoE能够更加有效地处理动态视觉扰动,提高视觉强化学习的鲁棒性。
关键设计:Agent-Centric Observations模块通过裁剪和缩放原始图像,使得智能体始终位于图像中心。Mixture-of-Experts模块包含多个专家网络,每个专家网络由卷积神经网络构成。论文使用了门控网络来动态地选择合适的专家网络进行处理。损失函数包括重建损失和强化学习损失。重建损失用于训练专家网络,强化学习损失用于训练强化学习Agent。
📊 实验亮点
在VDCS基准测试中,ACO-MoE在具有挑战性的马尔可夫切换腐败下恢复了95.3%的干净性能,显著优于其他基线方法。此外,在DMControl Generalization任务中,ACO-MoE在随机颜色和视频背景扰动下取得了SOTA结果,证明了其在不同类型的视觉扰动下的泛化能力和鲁棒性。
🎯 应用场景
该研究成果可应用于机器人导航、自动驾驶、游戏AI等领域,尤其是在复杂、动态和充满噪声的真实环境中。通过提高视觉强化学习的鲁棒性,可以使智能体更好地适应各种环境变化,从而实现更可靠和高效的自主控制。未来,该技术有望在工业自动化、智能家居等领域发挥重要作用。
📄 摘要(原文)
Visual reinforcement learning aims to empower an agent to learn policies from visual observations, yet it remains vulnerable to dynamic visual perturbations, such as unpredictable shifts in corruption types. To systematically study this, we introduce the Visual Degraded Control Suite (VDCS), a benchmark extending DeepMind Control Suite with Markov-switching degradations to simulate non-stationary real-world perturbations. Experiments on VDCS reveal severe performance degradation in existing methods. We theoretically prove via information-theoretic analysis that this failure stems from reconstruction-based objectives inevitably entangling perturbation artifacts into latent representations. To mitigate this negative impact, we propose Agent-Centric Observations with Mixture-of-Experts (ACO-MoE) to robustify visual RL against perturbations. The proposed framework leverages unique agent-centric restoration experts, achieving restoration from corruptions and task-relevant foreground extraction, thereby decoupling perception from perturbation before being processed by the RL agent. Extensive experiments on VDCS show our ACO-MoE outperforms strong baselines, recovering 95.3% of clean performance under challenging Markov-switching corruptions. Moreover, it achieves SOTA results on DMControl Generalization with random-color and video-background perturbations, demonstrating a high level of robustness.