Representation over Routing: Overcoming Surrogate Hacking in Multi-Timescale PPO

📄 arXiv: 2604.13517v1 📥 PDF

作者: Jing Sun

分类: cs.LG, cs.AI

发布日期: 2026-04-15

备注: 8 pages, 6 figures


💡 一句话要点

提出目标解耦架构,解决多时间尺度PPO中Surrogate Hacking问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 强化学习 多时间尺度 近端策略优化 Surrogate Hacking 目标解耦

📋 核心要点

  1. 多时间尺度PPO在延迟奖励任务中易受Surrogate Hacking攻击,导致策略崩溃和局部最优。
  2. 提出目标解耦架构,在Critic侧进行多时间尺度预测,Actor侧仅使用长期优势更新策略。
  3. 在LunarLander-v2环境中,该架构显著提升性能,消除策略崩溃,并摆脱局部最优。

📝 摘要(中文)

强化学习中的时间信用分配一直是一个核心挑战。受神经生物学中多时间尺度多巴胺系统的启发,最近的研究试图将多个折扣因子引入到Actor-Critic架构中,例如近端策略优化(PPO),以平衡短期反应和长期规划。然而,本文揭示了在复杂的延迟奖励任务中盲目融合多时间尺度信号可能导致严重的算法病理。我们系统地证明了将时间注意力路由机制暴露于策略梯度会导致Surrogate目标攻击,而采用无梯度不确定性加权会触发不可逆的短视退化,我们称之为时间不确定性悖论。为了解决这些问题,我们提出了一种目标解耦架构:在Critic侧,我们保留多时间尺度预测以强制辅助表示学习,而在Actor侧,我们严格隔离短期信号,并仅基于长期优势更新策略。在LunarLander-v2环境中,跨多个独立随机种子的严格经验评估表明,我们提出的架构实现了统计上显著的性能改进。在不依赖超参数调整的情况下,它始终以最小的方差超过“环境已解决”的阈值,完全消除了策略崩溃,并摆脱了困扰单时间尺度基线的悬停局部最优。

🔬 方法详解

问题定义:论文旨在解决多时间尺度近端策略优化(PPO)在复杂延迟奖励任务中出现的Surrogate Hacking问题。现有方法盲目融合多时间尺度信号,导致策略梯度利用时间注意力路由机制进行Surrogate目标攻击,或者采用无梯度不确定性加权导致短视退化,最终影响算法的稳定性和性能。

核心思路:论文的核心思路是将Actor和Critic的目标解耦。具体来说,Critic侧仍然使用多时间尺度预测,以学习更丰富的状态表示。而Actor侧则严格隔离短期信号,仅使用长期优势函数进行策略更新。这样可以避免策略梯度直接操纵短期信号,从而缓解Surrogate Hacking问题。

技术框架:整体架构包含Actor和Critic两个部分。Critic网络接收环境状态作为输入,输出多个时间尺度下的价值函数估计。Actor网络接收环境状态作为输入,输出策略分布。关键在于,Actor的策略更新仅依赖于Critic输出的长期优势函数,而忽略短期优势函数。这种解耦的设计避免了Actor直接利用短期信号进行Surrogate目标攻击。

关键创新:最重要的技术创新点在于目标解耦架构。通过将Actor和Critic的目标解耦,避免了策略梯度直接操纵短期信号,从而有效缓解了Surrogate Hacking问题。这种解耦思想可以推广到其他多时间尺度强化学习算法中。

关键设计:在Critic侧,使用了多个折扣因子来预测不同时间尺度下的价值函数。在Actor侧,策略更新的目标函数仅包含长期优势函数,短期优势函数被排除在外。具体实现上,可以使用不同的网络结构来分别处理长期和短期信号,或者使用mask机制来屏蔽短期信号对策略梯度的影响。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在LunarLander-v2环境中,目标解耦架构显著提升了PPO的性能,超过了“环境已解决”的阈值,并消除了策略崩溃现象。与单时间尺度基线相比,该架构能够摆脱悬停局部最优,实现更稳定的学习过程。实验结果表明,该方法在不依赖超参数调整的情况下,也能取得显著的性能提升。

🎯 应用场景

该研究成果可应用于机器人控制、游戏AI、金融交易等需要长期规划和延迟奖励的强化学习任务中。通过避免Surrogate Hacking问题,可以提高算法的稳定性和性能,使其能够更好地适应复杂环境,并做出更优的决策。未来,该方法可以进一步推广到其他多时间尺度强化学习算法中,提升其在实际应用中的效果。

📄 摘要(原文)

Temporal credit assignment in reinforcement learning has long been a central challenge. Inspired by the multi-timescale encoding of the dopamine system in neurobiology, recent research has sought to introduce multiple discount factors into Actor-Critic architectures, such as Proximal Policy Optimization (PPO), to balance short-term responses with long-term planning. However, this paper reveals that blindly fusing multi-timescale signals in complex delayed-reward tasks can lead to severe algorithmic pathologies. We systematically demonstrate that exposing a temporal attention routing mechanism to policy gradients results in surrogate objective hacking, while adopting gradient-free uncertainty weighting triggers irreversible myopic degeneration, a phenomenon we term the Paradox of Temporal Uncertainty. To address these issues, we propose a Target Decoupling architecture: on the Critic side, we retain multi-timescale predictions to enforce auxiliary representation learning, while on the Actor side, we strictly isolate short-term signals and update the policy based solely on long-term advantages. Rigorous empirical evaluations across multiple independent random seeds in the LunarLander-v2 environment demonstrate that our proposed architecture achieves statistically significant performance improvements. Without relying on hyperparameter hacking, it consistently surpasses the ''Environment Solved'' threshold with minimal variance, completely eliminates policy collapse, and escapes the hovering local optima that trap single-timescale baselines.