Objective Metrics for Human-Subjects Evaluation in Explainable Reinforcement Learning

📄 arXiv: 2501.19256v1 📥 PDF

作者: Balint Gyevnar, Mark Towers

分类: cs.AI, cs.HC, cs.RO

发布日期: 2025-01-31


💡 一句话要点

提出基于客观指标的XRL评估方法,用于调试智能体行为和支持人机协作。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 可解释强化学习 客观评估指标 人机协作 智能体调试 行为分析

📋 核心要点

  1. 现有XRL评估依赖主观指标,无法有效衡量解释在实际问题中的效果,阻碍了研究的可靠性和可比性。
  2. 论文提出使用基于可观察行为的客观指标评估XRL,关注解释在调试智能体和人机协作中的实际作用。
  3. 通过网格环境实验,展示了客观评估方法在调试智能体行为和支持人机协作方面的应用,并讨论了主客观指标的互补性。

📝 摘要(中文)

解释性是根本上以人为本的过程。理解解释的目标和受众至关重要,但现有的可解释强化学习(XRL)工作通常在评估中不咨询人类。即使咨询了,也经常采用主观指标,如信心或理解,这些指标只能告知研究人员用户的意见,而不能告知他们在给定问题上的实际效果。本文呼吁研究人员使用基于可观察和可操作行为的客观人类指标进行解释评估,以构建更具可重复性、可比性和认知基础的研究。为此,我们整理、描述和比较了几种客观评估方法,用于将解释应用于调试智能体行为和支持人机协作,并使用一种新的基于网格的环境来说明我们提出的方法。我们讨论了主观和客观指标如何相互补充以提供整体验证,以及未来的工作如何需要利用标准化基准进行测试,以实现研究之间更大的比较。

🔬 方法详解

问题定义:现有可解释强化学习(XRL)的研究在评估解释的有效性时,过度依赖主观指标,例如用户的信心度或理解程度。这些主观指标只能反映用户的个人感受,无法准确衡量解释在实际问题解决中的作用。因此,如何客观地评估XRL解释的有效性,使其更具可重复性、可比性和实际意义,是一个亟待解决的问题。

核心思路:论文的核心思路是采用基于可观察行为的客观指标来评估XRL解释。这意味着评估的重点不再是用户对解释的主观感受,而是用户在接收到解释后,在实际任务中表现出的行为变化。通过观察用户如何利用解释来调试智能体行为或进行人机协作,可以更直接地衡量解释的有效性。

技术框架:论文没有提出一个全新的技术框架,而是侧重于评估方法的选择和应用。其主要流程包括:1) 选择合适的客观评估指标,例如任务完成时间、错误率等;2) 设计实验环境,例如一个网格世界环境,用于模拟调试智能体或人机协作的场景;3) 让用户在接收到XRL解释后,在实验环境中执行任务;4) 收集用户的行为数据,并根据预先设定的客观指标进行评估。

关键创新:论文的关键创新在于强调了在XRL评估中使用客观指标的重要性,并提供了一系列可行的客观评估方法。与以往侧重主观评估的研究不同,该论文关注解释的实际应用效果,从而使XRL研究更具实用价值。

关键设计:论文的关键设计在于选择合适的客观评估指标和设计合理的实验环境。例如,在调试智能体行为的场景中,可以选择调试时间、调试成功率等作为评估指标。在人机协作的场景中,可以选择协作完成时间、协作效率等作为评估指标。此外,实验环境的设计需要能够模拟真实的调试或协作场景,以便更准确地评估解释的有效性。

🖼️ 关键图片

fig_0
img_1
img_2

📊 实验亮点

论文通过在一个新的网格环境中进行实验,展示了客观评估方法在调试智能体行为和支持人机协作方面的应用。虽然论文没有提供具体的性能数据,但强调了客观指标在评估XRL解释有效性方面的重要性,并为未来的研究提供了新的方向。

🎯 应用场景

该研究成果可应用于各种需要人机协作的场景,例如机器人辅助手术、自动驾驶、智能客服等。通过客观评估XRL解释的有效性,可以提高人机协作的效率和安全性,增强用户对智能系统的信任感,并促进XRL技术的进一步发展。

📄 摘要(原文)

Explanation is a fundamentally human process. Understanding the goal and audience of the explanation is vital, yet existing work on explainable reinforcement learning (XRL) routinely does not consult humans in their evaluations. Even when they do, they routinely resort to subjective metrics, such as confidence or understanding, that can only inform researchers of users' opinions, not their practical effectiveness for a given problem. This paper calls on researchers to use objective human metrics for explanation evaluations based on observable and actionable behaviour to build more reproducible, comparable, and epistemically grounded research. To this end, we curate, describe, and compare several objective evaluation methodologies for applying explanations to debugging agent behaviour and supporting human-agent teaming, illustrating our proposed methods using a novel grid-based environment. We discuss how subjective and objective metrics complement each other to provide holistic validation and how future work needs to utilise standardised benchmarks for testing to enable greater comparisons between research.