In Pursuit of Predictive Models of Human Preferences Toward AI Teammates
作者: Ho Chit Siu, Jaime D. Peña, Yutai Zhou, Ross E. Allen
分类: cs.HC, cs.AI
发布日期: 2025-01-31
💡 一句话要点
探究人类对AI队友偏好的预测模型,用于Hanabi合作博弈
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 人机协作 AI队友 人类偏好 Hanabi游戏 强化学习
📋 核心要点
- 现有强化学习方法在设计协作AI时,未能充分考虑人类队友的主观偏好,导致人机协作效果不佳。
- 该研究通过分析AI智能体的客观指标与人类主观偏好之间的关联,旨在建立可预测人类偏好的AI模型。
- 实验表明,传统任务性能指标不如AI行动多样性等指标更能预测人类偏好,为未来人机协作AI设计提供新思路。
📝 摘要(中文)
本文旨在寻找AI智能体中可测量的属性,这些属性会影响人类合作者对其作为队友的主观评价。研究使用合作纸牌游戏Hanabi作为AI组队研究的常见基准。首先,基于任务性能、信息论和博弈论等客观指标评估AI智能体,这些指标无需人类交互即可测量。其次,通过大规模(N=241)的人机组队实验,评估人类对AI队友的主观偏好。最后,将AI的客观指标与人类的主观偏好相关联。研究结果驳斥了先前强化学习文献中的常见假设,揭示了AI行为与人类偏好之间的新关联。发现人类-AI团队获得的最终游戏得分不如AI行动多样性、战略优势和与其他AI组队能力等指标更能预测人类偏好。未来,这些相关性可能有助于塑造训练人类协作AI的奖励函数。
🔬 方法详解
问题定义:现有方法在训练人机协作AI时,通常侧重于优化客观的任务性能指标,例如游戏得分。然而,人类队友的主观感受,例如是否喜欢与该AI合作,往往被忽略。这导致训练出的AI虽然在客观指标上表现良好,但在实际人机协作中可能并不受欢迎,影响整体协作效率。因此,需要找到能够预测人类对AI队友偏好的指标,从而更好地设计人机协作AI。
核心思路:该研究的核心思路是,通过大规模的人机协作实验,收集人类对不同AI队友的主观评价数据,并将其与AI智能体在客观指标上的表现进行关联分析。通过这种方式,可以识别出哪些客观指标能够有效预测人类的主观偏好,从而为设计更受人类欢迎的AI队友提供指导。
技术框架:该研究的技术框架主要包括以下几个步骤:1) 选择Hanabi游戏作为人机协作的实验平台;2) 设计一系列客观指标,用于评估AI智能体的性能,包括任务性能、信息论指标和博弈论指标;3) 进行大规模的人机协作实验,收集人类对不同AI队友的主观评价数据;4) 使用统计方法,分析AI智能体的客观指标与人类主观评价之间的相关性,从而识别出能够预测人类偏好的指标。
关键创新:该研究的关键创新在于,它挑战了传统强化学习中以任务性能为中心的AI设计理念,强调了人类主观偏好在人机协作中的重要性。研究发现,一些非传统的客观指标,例如AI行动的多样性和战略优势,比任务性能更能预测人类的偏好。这一发现为未来人机协作AI的设计提供了新的思路。
关键设计:在实验设计方面,研究者精心挑选了一系列客观指标,包括:1) 任务性能指标,例如游戏得分;2) 信息论指标,例如AI行动的信息熵;3) 博弈论指标,例如AI的战略优势。在人机协作实验中,研究者招募了大量参与者,并要求他们对不同的AI队友进行主观评价。通过统计分析,研究者最终找到了能够有效预测人类偏好的客观指标。
🖼️ 关键图片
📊 实验亮点
实验结果表明,最终游戏得分与人类偏好相关性较弱,而AI行动多样性、战略优势和与其他AI组队能力等指标与人类偏好具有更强的相关性。例如,AI行动多样性越高,人类越倾向于认为该AI是好的队友。这些发现为未来人机协作AI的设计提供了新的方向。
🎯 应用场景
该研究成果可应用于各种人机协作场景,例如:智能客服、协同机器人、自动驾驶等。通过优化AI的行为,使其更符合人类的偏好,可以提高人机协作的效率和用户满意度。此外,该研究还可以为AI伦理研究提供参考,帮助设计更负责任和更值得信任的AI系统。
📄 摘要(原文)
We seek measurable properties of AI agents that make them better or worse teammates from the subjective perspective of human collaborators. Our experiments use the cooperative card game Hanabi -- a common benchmark for AI-teaming research. We first evaluate AI agents on a set of objective metrics based on task performance, information theory, and game theory, which are measurable without human interaction. Next, we evaluate subjective human preferences toward AI teammates in a large-scale (N=241) human-AI teaming experiment. Finally, we correlate the AI-only objective metrics with the human subjective preferences. Our results refute common assumptions from prior literature on reinforcement learning, revealing new correlations between AI behaviors and human preferences. We find that the final game score a human-AI team achieves is less predictive of human preferences than esoteric measures of AI action diversity, strategic dominance, and ability to team with other AI. In the future, these correlations may help shape reward functions for training human-collaborative AI.