Interpreting Reinforcement Learning Agents with Susceptibilities
作者: Chris Elliott, Einar Urdshals, David Quarel, Daniel Murfet
分类: cs.LG
发布日期: 2026-05-08
备注: 55 pages, comments welcome
💡 一句话要点
提出基于敏感度(Susceptibilities)的深度强化学习可解释性框架,揭示模型参数空间的演化机制。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 深度强化学习 模型可解释性 敏感度分析 参数空间演化 RLHF 激活转向 神经网络动力学
📋 核心要点
- 现有RL可解释性方法多关注策略输出,难以洞察模型在参数空间中的深层演化机制与学习动力学。
- 论文引入敏感度分析,通过研究可观测量的后验期望对损失函数扰动的响应,量化参数空间的内部变化。
- 实验证明该方法能捕捉策略演变之外的隐藏特征,并通过激活转向验证了其在RLHF等复杂场景的适用性。
📝 摘要(中文)
敏感度(Susceptibilities)是一种用于神经网络可解释性的技术,旨在研究可观测量的后验期望值对损失函数扰动的响应。本文将该构造推广至深度强化学习中的遗憾(regret)分析场景,并在一个虽简单但表现出非平凡阶段性发展的网格世界模型中验证了其效用。研究表明,敏感度能够揭示模型在参数空间中演化的内部特征,而这些特征仅通过观察学习策略的演变是无法捕捉到的。此外,作者通过激活转向(activation-steering)验证了这些结果,并探讨了该框架在强化学习人类反馈(RLHF)后训练阶段的扩展潜力。
🔬 方法详解
问题定义:深度强化学习模型通常被视为“黑盒”,现有的可解释性方法往往局限于策略行为分析,无法解释模型在训练过程中参数空间的演化路径及其对最终决策的影响,导致难以理解模型学习的阶段性特征。
核心思路:借鉴统计物理中响应函数的思想,将“敏感度”概念引入RL。通过分析损失函数扰动对可观测量(如遗憾值)的影响,捕捉模型参数对特定任务特征的敏感程度,从而量化模型在训练不同阶段的内部状态变化。
技术框架:该框架构建在损失函数的扰动分析之上,通过计算可观测量关于损失函数参数的导数(即敏感度),映射出模型在参数空间中的轨迹。在网格世界模型中,通过对比不同训练阶段的敏感度图谱,识别模型学习的关键转折点。
关键创新:首次将敏感度分析从静态神经网络推广至动态RL环境。其本质区别在于,它不仅关注“模型做了什么(策略)”,更关注“模型为何这样做(参数敏感性)”,提供了对模型内部表征演化的因果解释。
关键设计:利用激活转向(activation-steering)技术作为验证手段,通过干预模型内部激活值来观察敏感度预测的准确性,并设计了针对RLHF后训练阶段的扩展方案,以评估模型在对齐过程中的参数稳定性与偏好偏移。
🖼️ 关键图片
📊 实验亮点
实验在网格世界模型中展示了敏感度分析的有效性,成功识别了仅通过策略观察无法发现的阶段性学习特征。通过激活转向实验,验证了敏感度指标与模型内部决策机制的高度相关性。研究结果表明,该方法能有效揭示模型在参数空间的演化轨迹,为理解复杂RL系统的内部动力学提供了量化工具。
🎯 应用场景
该研究主要应用于深度强化学习模型的可解释性分析与安全性评估。特别是在RLHF(人类反馈强化学习)场景中,该方法可用于监测模型在对齐训练过程中的参数演化,识别潜在的偏见或不稳定的学习行为,为构建更透明、可控的智能体提供理论支撑。
📄 摘要(原文)
Susceptibilities are a technique for neural network interpretability that studies the response of posterior expectation values of observables to perturbations of the loss. We generalize this construction to the setting of the regret in deep reinforcement learning and investigate the utility of susceptibilities in a simple gridworld model that nevertheless exhibits non-trivial stagewise development. We argue that susceptibilities reveal internal features of the development of the model in parameter space that one cannot detect purely by studying the development of the learned policy. We validate these results with activation-steering, and discuss the framework's extension to RLHF post-training.