Surrogate Fitness Metrics for Interpretable Reinforcement Learning

作者: Philipp Altmann, Céline Davignon, Maximilian Zorn, Fabian Ritz, Claudia Linnhoff-Popien, Thomas Gabor

分类: cs.LG, cs.AI

发布日期: 2025-04-20

备注: 30 pages, 7 figures, under review

💡 一句话要点

提出基于代理适应度指标的强化学习可解释性优化框架

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture)

关键词: 强化学习 可解释性 演化优化 代理适应度 轨迹优化

📋 核心要点

现有强化学习策略缺乏可解释性，难以理解其决策过程，尤其是在复杂环境中。
利用演化优化框架，通过扰动初始状态生成多样化策略演示，并使用联合代理适应度函数指导优化。
实验表明，该方法显著提高了强化学习策略在离散和连续环境中的可解释性，尤其是在早期策略阶段。

📝 摘要（中文）

本文采用一种演化优化框架，通过扰动初始状态来生成信息丰富且多样的策略演示。联合代理适应度函数通过结合局部多样性、行为确定性和全局种群多样性来指导优化过程。为了评估演示质量，我们应用了一系列评估指标，包括基于奖励的最优性差距、保真度四分位均值（IQM）、适应度成分分析和轨迹可视化。此外，还研究了超参数敏感性，以更好地理解轨迹优化的动态特性。研究结果表明，通过代理适应度指标优化轨迹选择可以显著提高离散和连续环境中强化学习策略的可解释性。在网格世界领域，评估结果显示，与随机和消融基线相比，演示保真度显著提高。在连续控制中，所提出的框架提供了有价值的见解，尤其是在早期策略中，而基于保真度的优化对于成熟策略更为有效。通过改进和系统地分析代理适应度函数，本研究提高了强化学习模型的可解释性。所提出的改进为强化学习决策提供了更深入的见解，有益于安全关键和以可解释性为重点的领域中的应用。

🔬 方法详解

问题定义：强化学习策略的可解释性不足，难以理解策略的决策过程。现有方法难以生成信息丰富且多样的策略演示，从而限制了对策略行为的深入理解。尤其是在安全关键领域，缺乏可解释性会阻碍强化学习的实际应用。

核心思路：通过演化优化框架，从扰动后的初始状态生成策略演示，并使用代理适应度函数来指导轨迹选择。代理适应度函数结合了局部多样性、行为确定性和全局种群多样性，旨在选择信息量大且具有代表性的轨迹，从而提高策略的可解释性。

技术框架：该框架包含以下主要阶段：1) 初始状态扰动：通过对初始状态进行扰动，生成不同的起始点。2) 策略演示生成：利用强化学习策略，从扰动后的初始状态生成轨迹。3) 代理适应度评估：使用联合代理适应度函数评估每个轨迹的质量，该函数考虑了局部多样性、行为确定性和全局种群多样性。4) 轨迹选择：选择具有较高代理适应度值的轨迹作为策略演示。5) 可解释性评估：使用一系列评估指标（如最优性差距、保真度四分位均值等）评估策略的可解释性。

关键创新：该方法的核心创新在于使用代理适应度函数来指导轨迹选择，从而生成信息丰富且多样的策略演示。传统的强化学习方法通常依赖于奖励信号来优化策略，而忽略了策略的可解释性。通过引入代理适应度函数，该方法能够显式地优化策略的可解释性。

关键设计：代理适应度函数是该方法的核心。它由三个部分组成：1) 局部多样性：衡量轨迹与其邻近轨迹之间的差异，鼓励探索不同的行为。2) 行为确定性：衡量轨迹的一致性，确保策略的行为是可预测的。3) 全局种群多样性：衡量轨迹在整个种群中的代表性，确保选择的轨迹能够覆盖不同的状态空间。这三个部分通过加权求和的方式进行组合，权重系数需要根据具体任务进行调整。

🖼️ 关键图片

📊 实验亮点

在网格世界环境中，与随机和消融基线相比，该方法显著提高了演示保真度。在连续控制环境中，该方法为早期策略提供了有价值的见解，而基于保真度的优化对于成熟策略更为有效。这些实验结果表明，通过代理适应度指标优化轨迹选择可以有效地提高强化学习策略的可解释性。

🎯 应用场景

该研究成果可应用于安全关键领域，例如自动驾驶、医疗诊断和金融风险管理。通过提高强化学习策略的可解释性，可以增强人们对策略决策的信任，从而促进强化学习在这些领域的应用。此外，该方法还可以用于教育和培训领域，帮助人们更好地理解强化学习算法的工作原理。

📄 摘要（原文）

We employ an evolutionary optimization framework that perturbs initial states to generate informative and diverse policy demonstrations. A joint surrogate fitness function guides the optimization by combining local diversity, behavioral certainty, and global population diversity. To assess demonstration quality, we apply a set of evaluation metrics, including the reward-based optimality gap, fidelity interquartile means (IQMs), fitness composition analysis, and trajectory visualizations. Hyperparameter sensitivity is also examined to better understand the dynamics of trajectory optimization. Our findings demonstrate that optimizing trajectory selection via surrogate fitness metrics significantly improves interpretability of RL policies in both discrete and continuous environments. In gridworld domains, evaluations reveal significantly enhanced demonstration fidelities compared to random and ablated baselines. In continuous control, the proposed framework offers valuable insights, particularly for early-stage policies, while fidelity-based optimization proves more effective for mature policies. By refining and systematically analyzing surrogate fitness functions, this study advances the interpretability of RL models. The proposed improvements provide deeper insights into RL decision-making, benefiting applications in safety-critical and explainability-focused domains.

Surrogate Fitness Metrics for Interpretable Reinforcement Learning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理