TREX: Trajectory Explanations for Multi-Objective Reinforcement Learning
作者: Dilina Rajapakse, Juan C. Rosero, Ivana Dusparic
分类: cs.LG, cs.AI
发布日期: 2026-03-23
备注: Accepted by 4th World Conference on eXplainable Artificial Intelligence
💡 一句话要点
TREX:基于轨迹归因的多目标强化学习可解释性框架
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 多目标强化学习 可解释性 轨迹归因 行为模式 Pareto最优
📋 核心要点
- 传统强化学习难以处理多目标优化问题,而多目标强化学习的决策过程缺乏透明度,难以解释。
- TREX框架通过轨迹归因,从专家策略生成轨迹,并聚类成语义片段,从而解释多目标强化学习策略。
- 实验表明,TREX能够有效隔离和量化特定行为模式对Pareto最优权衡的影响,提升模型可解释性。
📝 摘要(中文)
强化学习(RL)通过与环境交互并优化奖励信号,已展示了其解决各种领域中复杂决策问题的能力。然而,许多现实场景涉及多个可能冲突的目标,这些目标无法用单一标量奖励轻松表示。多目标强化学习(MORL)通过使智能体能够同时优化多个目标,显式地推理它们之间的权衡,从而解决了这一局限性。然而,RL模型的“黑盒”性质使得所选目标权衡背后的决策过程不明确。当前的可解释强化学习(XRL)方法通常是为单一标量奖励设计的,没有考虑关于不同目标或用户偏好的解释。为了解决这一差距,本文提出了一种基于轨迹的可解释性框架TREX,通过轨迹归因来解释多目标强化学习策略。TREX直接从学习到的专家策略中生成不同用户偏好下的轨迹,并将它们聚类成语义上有意义的时间片段。我们通过训练排除特定聚类的互补策略,测量与原始专家策略相比,观察到的奖励和动作的相对偏差,从而量化这些行为片段对Pareto权衡的影响。在多目标MuJoCo环境(HalfCheetah、Ant和Swimmer)上的实验证明了该框架隔离和量化特定行为模式的能力。
🔬 方法详解
问题定义:多目标强化学习(MORL)在现实世界中应用广泛,但其决策过程通常难以理解,缺乏透明度。现有的可解释强化学习(XRL)方法主要针对单目标强化学习,无法直接应用于MORL,难以解释不同目标之间的权衡以及用户偏好对策略的影响。因此,如何为MORL提供可解释的决策过程,成为了一个重要的研究问题。
核心思路:TREX的核心思路是通过分析专家策略生成的轨迹,将轨迹分解为具有语义意义的片段,并量化这些片段对最终目标权衡的影响。通过这种方式,可以理解智能体在不同目标之间的权衡策略,并解释其决策过程。该方法基于轨迹归因,认为轨迹中的不同片段对最终的奖励和行为有不同的贡献。
技术框架:TREX框架主要包含以下几个阶段:1) 轨迹生成:从学习到的专家策略中,根据不同的用户偏好生成轨迹。2) 轨迹聚类:将生成的轨迹聚类成语义上有意义的时间片段,每个簇代表一种特定的行为模式。3) 策略训练:训练互补策略,这些策略在训练过程中排除特定的轨迹簇。4) 影响量化:通过比较原始专家策略和互补策略在奖励和动作上的偏差,量化每个轨迹簇对Pareto最优权衡的影响。
关键创新:TREX的关键创新在于其将轨迹归因的思想引入到多目标强化学习的可解释性分析中。与现有的XRL方法不同,TREX能够针对不同的目标和用户偏好提供解释,并且能够量化不同行为模式对最终决策的影响。此外,TREX通过训练互补策略来评估轨迹片段的重要性,避免了直接分析复杂策略的困难。
关键设计:在轨迹聚类阶段,可以使用各种聚类算法,例如K-means或DBSCAN。互补策略的训练可以使用与专家策略相同的强化学习算法,但需要修改奖励函数或状态空间,以排除特定的轨迹簇。在量化影响时,可以使用各种指标来衡量奖励和动作的偏差,例如均方误差或KL散度。具体参数设置需要根据具体的环境和任务进行调整。
🖼️ 关键图片
📊 实验亮点
在多目标MuJoCo环境(HalfCheetah、Ant和Swimmer)上的实验结果表明,TREX能够有效地隔离和量化特定行为模式对Pareto最优权衡的影响。通过训练排除特定轨迹簇的互补策略,并测量其与原始专家策略的偏差,TREX能够准确地识别出对不同目标有重要影响的行为片段。实验结果验证了TREX框架在多目标强化学习可解释性方面的有效性。
🎯 应用场景
TREX框架可应用于各种需要多目标决策且需要解释性的领域,例如机器人控制、自动驾驶、资源分配等。通过TREX,用户可以理解智能体在不同目标之间的权衡策略,从而更好地信任和控制智能体。此外,TREX还可以用于调试和改进多目标强化学习算法,提升算法的性能和鲁棒性。
📄 摘要(原文)
Reinforcement Learning (RL) has demonstrated its ability to solve complex decision-making problems in a variety of domains, by optimizing reward signals obtained through interaction with an environment. However, many real-world scenarios involve multiple, potentially conflicting objectives that cannot be easily represented by a single scalar reward. Multi-Objective Reinforcement Learning (MORL) addresses this limitation by enabling agents to optimize several objectives simultaneously, explicitly reasoning about trade-offs between them. However, the ``black box" nature of the RL models makes the decision process behind chosen objective trade-offs unclear. Current Explainable Reinforcement Learning (XRL) methods are typically designed for single scalar rewards and do not account for explanations with respect to distinct objectives or user preferences. To address this gap, in this paper we propose TREX, a Trajectory based Explainability framework to explain Multi-objective Reinforcement Learning policies, based on trajectory attribution. TREX generates trajectories directly from the learned expert policy, across different user preferences and clusters them into semantically meaningful temporal segments. We quantify the influence of these behavioural segments on the Pareto trade-off by training complementary policies that exclude specific clusters, measuring the resulting relative deviation on the observed rewards and actions compared to the original expert policy. Experiments on multi-objective MuJoCo environments - HalfCheetah, Ant and Swimmer, demonstrate the framework's ability to isolate and quantify the specific behavioural patterns.