Higher Resolution, Better Generalization: Unlocking Visual Scaling in Deep Reinforcement Learning
作者: Raphael Trumpp, Ömer Veysel Çağatan, Barış Akgün, Marco Caccamo
分类: cs.LG
发布日期: 2026-05-11
🔗 代码/项目: GITHUB
💡 一句话要点
提出Impoola架构以解决深度强化学习中视觉分辨率缩放受限的问题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 深度强化学习 视觉感知 分辨率缩放 神经网络架构 全局平均池化 泛化能力
📋 核心要点
- 现有深度强化学习普遍采用激进的视觉下采样,导致智能体丢失关键空间细节,限制了复杂环境下的感知能力。
- 论文提出Impoola架构,通过全局平均池化替代传统的全连接展平操作,实现了模型参数量与输入分辨率的解耦。
- 实验证明该方法在Procgen-HD基准上实现了28%的性能提升,并显著增强了智能体对微小目标的感知与泛化能力。
📝 摘要(中文)
基于像素的深度强化学习智能体通常在经过大幅下采样的视觉观测上进行训练,这更多是沿袭早期基准测试的惯例,而非基于原则性的设计。本研究表明,观测分辨率是策略学习中一个关键但被忽视的变量:只要网络架构能够有效处理,更高分辨率的输入可以显著提升性能和泛化能力。研究发现,广泛使用的Impala编码器因将空间特征展平为向量,导致参数量随分辨率增加呈二次方增长,且无法利用额外的视觉细节。通过引入全局平均池化(Global Average Pooling)构建Impoola架构,实现了参数量与分辨率的解耦,在不同分辨率和网络宽度下均表现出一致的性能提升。实验表明,视觉缩放为Impoola带来了28%的性能增益,特别是在需要感知微小或远距离物体的环境中。梯度显著性分析证实,高分辨率下策略具有更强的空间局部视觉注意力。本研究挑战了激进下采样的现状,并为可扩展的视觉深度强化学习提供了简单有效的路径。
🔬 方法详解
问题定义:现有深度强化学习(DRL)方法倾向于将输入图像大幅下采样(如64x64),这源于早期计算资源限制。然而,这种做法导致了空间信息的严重丢失,使得智能体难以处理需要精细视觉感知的任务,且现有的Impala编码器在处理高分辨率输入时,因全连接层导致参数量呈二次方爆炸,难以扩展。
核心思路:论文的核心思想是打破“分辨率与参数量绑定”的限制。通过将空间特征图的聚合方式从“展平(Flatten)”改为“全局平均池化(Global Average Pooling)”,使得编码器能够处理任意分辨率的输入,同时保持参数量稳定,从而充分利用高分辨率带来的丰富视觉特征。
技术框架:Impoola架构在Impala编码器的基础上进行了改进。它保留了卷积神经网络提取空间特征的能力,但在特征提取层之后,使用全局平均池化层将空间维度压缩,随后连接全连接层输出策略和价值函数,从而避免了输入分辨率变化对后续网络结构的影响。
关键创新:最重要的创新在于将空间特征聚合方式从依赖分辨率的展平操作转变为分辨率无关的全局平均池化。这一改动不仅解决了参数量随分辨率增加而激增的问题,还通过梯度显著性分析证明了其能引导策略关注更局部的空间特征。
关键设计:该方法通过引入Procgen-HD基准测试,验证了在不同分辨率(如128x128及以上)下的鲁棒性。设计上强调了架构的简洁性,即无需复杂的注意力机制或多尺度特征融合,仅通过简单的池化策略即可实现性能的显著提升。
🖼️ 关键图片
📊 实验亮点
实验在Procgen-HD基准上进行,结果显示Impoola架构在处理高分辨率输入时,相比基线Impala实现了28%的性能增益。梯度显著性分析进一步证实,高分辨率输入使策略能够更精准地聚焦于环境中的微小或远距离物体,证明了视觉缩放对于提升智能体感知能力的有效性。
🎯 应用场景
该研究适用于所有依赖视觉输入的深度强化学习场景,特别是在机器人导航、复杂游戏环境、自动驾驶模拟以及需要精细目标识别的工业控制领域。其提出的分辨率缩放策略为构建更具泛化能力和感知精度的智能体提供了通用范式,对未来大规模视觉DRL系统的设计具有重要参考价值。
📄 摘要(原文)
Pixel-based deep reinforcement learning agents are typically trained on heavily downsampled visual observations, a convention inherited from early benchmarks rather than grounded in principled design. In this work, we show that observation resolution is a critical yet overlooked variable for policy learning: higher-resolution inputs can substantially improve both performance and generalization, provided the network architecture can process them effectively. We find that the widely used Impala encoder, which flattens spatial features into a vector, suffers from quadratic parameter growth as resolution increases and fails to leverage the additional visual detail. Replacing this operation with global average pooling, as in the Impoola architecture, decouples parameter count from resolution and yields consistent improvements across resolutions and network widths - at their respective best conditions, visual scaling unlocks a 28 % performance gain for Impoola over Impala. These gains are strongest in environments that require precise perception of small or distant objects, and gradient saliency analysis confirms that the underlying mechanism is a more spatially localized visual attention of the policy at higher resolutions. Our results challenge the prevailing practice of aggressive input downsampling and position resolution-independent architectures as a simple, effective path toward scalable visual deep RL. To facilitate future research on resolution scaling in deep RL, we publicly release the open-source code for the Procgen-HD benchmark: https://github.com/raphajaner/procgen-hd.