TalkToAgent: A Human-centric Explanation of Reinforcement Learning Agents with Large Language Models

📄 arXiv: 2509.04809v2 📥 PDF

作者: Haechang Kim, Hao Chen, Can Li, Jong Min Lee

分类: cs.AI, cs.HC

发布日期: 2025-09-05 (更新: 2025-09-08)

备注: 31 pages total


💡 一句话要点

提出TalkToAgent,利用LLM实现人机交互式强化学习智能体解释。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 可解释强化学习 大型语言模型 人机交互 反事实解释 多智能体系统

📋 核心要点

  1. 现有XRL方法在可理解性和覆盖范围上存在局限,难以连接复杂RL策略与领域专家,用户难以选择合适的工具。
  2. TalkToAgent利用多智能体LLM框架,通过交互式自然语言解释,将用户查询映射到XRL工具,阐明智能体行为。
  3. 实验表明,TalkToAgent能高精度映射用户查询到XRL任务,通过编码器-调试器交互减少反事实生成失败,有效解释智能体行为。

📝 摘要(中文)

可解释强化学习(XRL)在提高强化学习(RL)智能体的透明度方面展现出巨大潜力。然而,由于XRL结果的理解难度以及现有XRL方法覆盖范围的局限性,复杂的RL策略与领域专家之间仍然存在差距,用户不确定该使用哪种工具。为了解决这些挑战,我们引入了TalkToAgent,这是一个多智能体大型语言模型(LLM)框架,可为RL策略提供交互式的自然语言解释。该架构包含五个专门的LLM智能体(协调器、解释器、编码器、评估器和调试器),使TalkToAgent能够自动将用户查询映射到相关的XRL工具,并根据关键状态变量、预期结果或反事实解释来阐明智能体的行为。此外,我们的方法通过从定性的行为描述甚至新的基于规则的策略中推导出替代方案,扩展了先前的反事实解释。我们在四罐过程控制问题(一个著名的非线性控制基准)上验证了TalkToAgent。结果表明,TalkToAgent成功地将用户查询映射到XRL任务,并具有很高的准确性,并且编码器-调试器交互最大限度地减少了反事实生成的失败。此外,定性评估证实了TalkToAgent有效地解释了智能体的行为,并在问题领域内对其含义进行了情境化。

🔬 方法详解

问题定义:现有可解释强化学习(XRL)方法难以被领域专家理解,且覆盖范围有限,导致用户难以选择合适的工具来理解和调试强化学习智能体的行为。这阻碍了强化学习技术在实际复杂系统中的应用。

核心思路:利用大型语言模型(LLM)的自然语言理解和生成能力,构建一个多智能体框架,将用户的查询转化为对强化学习智能体行为的解释。通过交互式的对话,逐步澄清智能体的决策过程,并提供反事实解释,帮助用户理解智能体行为背后的逻辑。

技术框架:TalkToAgent框架包含五个主要模块:协调器(Coordinator)、解释器(Explainer)、编码器(Coder)、评估器(Evaluator)和调试器(Debugger)。协调器负责接收用户查询并将其分配给合适的智能体。解释器负责生成对智能体行为的自然语言解释。编码器负责将用户提出的反事实场景转化为可执行的代码。评估器负责评估反事实场景的执行结果。调试器负责修复编码器生成的代码中的错误。整个流程是一个迭代的过程,通过多轮对话,逐步完善对智能体行为的解释。

关键创新:该方法的核心创新在于将大型语言模型应用于可解释强化学习领域,并构建了一个多智能体框架来实现交互式的解释。与传统的XRL方法相比,TalkToAgent能够提供更自然、更易于理解的解释,并且能够根据用户的反馈进行调整。此外,该方法还扩展了反事实解释的应用,允许用户从定性的行为描述或新的规则中推导出替代方案。

关键设计:框架的关键设计包括:1) 五个LLM智能体的角色定义和协作机制;2) 用户查询到XRL任务的映射策略;3) 反事实场景的编码和评估方法;4) 编码器和调试器之间的交互协议。具体的参数设置、损失函数和网络结构等技术细节在论文中可能没有详细描述,属于LLM应用中的常见技术。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,TalkToAgent能够以高精度将用户查询映射到XRL任务。编码器-调试器交互显著减少了反事实生成的失败。定性评估表明,TalkToAgent能够有效地解释智能体的行为,并在问题领域内对其含义进行情境化。虽然论文没有给出具体的性能数据和提升幅度,但实验结果表明了该方法的可行性和有效性。

🎯 应用场景

TalkToAgent可应用于各种复杂系统的强化学习智能体解释,例如机器人控制、自动驾驶、金融交易等。它可以帮助领域专家理解和信任智能体的决策,从而促进强化学习技术在实际场景中的应用。未来,该方法可以扩展到其他类型的智能体,例如基于深度学习的图像识别模型和自然语言处理模型。

📄 摘要(原文)

Explainable Reinforcement Learning (XRL) has emerged as a promising approach in improving the transparency of Reinforcement Learning (RL) agents. However, there remains a gap between complex RL policies and domain experts, due to the limited comprehensibility of XRL results and isolated coverage of current XRL approaches that leave users uncertain about which tools to employ. To address these challenges, we introduce TalkToAgent, a multi-agent Large Language Models (LLM) framework that delivers interactive, natural language explanations for RL policies. The architecture with five specialized LLM agents (Coordinator, Explainer, Coder, Evaluator, and Debugger) enables TalkToAgent to automatically map user queries to relevant XRL tools and clarify an agent's actions in terms of either key state variables, expected outcomes, or counterfactual explanations. Moreover, our approach extends previous counterfactual explanations by deriving alternative scenarios from qualitative behavioral descriptions, or even new rule-based policies. We validated TalkToAgent on quadruple-tank process control problem, a well-known nonlinear control benchmark. Results demonstrated that TalkToAgent successfully mapped user queries into XRL tasks with high accuracy, and coder-debugger interactions minimized failures in counterfactual generation. Furthermore, qualitative evaluation confirmed that TalkToAgent effectively interpreted agent's actions and contextualized their meaning within the problem domain.