HumanAgencyBench: Scalable Evaluation of Human Agency Support in AI Assistants
作者: Benjamin Sturgeon, Daniel Samuelson, Jacob Haimes, Jacy Reese Anthis
分类: cs.CY, cs.AI, cs.CL, cs.HC, cs.LG
发布日期: 2025-09-10
💡 一句话要点
提出HumanAgencyBench,用于评估AI助手中对人类自主性的支持程度。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 人类自主性 AI助手 大型语言模型 基准测试 价值对齐
📋 核心要点
- 现有AI系统,如社交媒体算法,可能无意中影响人类决策,导致自主性丧失,因此需要评估AI对人类自主性的支持。
- 论文整合哲学和科学的自主性理论,利用LLM模拟用户查询并评估AI响应,从而量化AI对人类自主性的支持程度。
- 实验表明,现有LLM助手对自主性的支持程度参差不齐,且与模型能力或指令遵循行为没有直接关系,需要更强的安全和对齐目标。
📝 摘要(中文)
随着人类将越来越多的任务和决策委托给人工智能(AI),我们面临着失去对个人和集体未来控制的风险。即使是相对简单的算法系统也在引导人类的决策,例如社交媒体的信息流算法,导致人们无意中漫无目的地浏览那些为了提高参与度而优化的内容。本文通过整合哲学和科学的自主性理论与AI辅助评估方法,提出了人类自主性的概念:使用大型语言模型(LLM)来模拟和验证用户查询,并评估AI的响应。我们开发了HumanAgencyBench(HAB),这是一个可扩展的自适应基准,它基于典型的AI用例,包含人类自主性的六个维度。HAB衡量AI助手或代理在以下方面的倾向:提出澄清问题、避免价值操纵、纠正错误信息、推迟重要决策、鼓励学习和维护社会界限。我们发现,当前基于LLM的助手对自主性的支持程度较低到中等,并且不同系统开发者和维度之间存在显著差异。例如,虽然Anthropic LLM总体上最支持人类自主性,但它们在避免价值操纵方面支持最少。自主性支持似乎并非始终来自于提高LLM的能力或遵循指令的行为(例如,RLHF),我们鼓励转向更强大的安全和对齐目标。
🔬 方法详解
问题定义:论文旨在解决如何有效评估AI助手在多大程度上支持人类自主性的问题。现有方法缺乏一个统一、可扩展的基准来衡量AI在不同维度上对人类自主性的支持,并且难以量化AI系统对用户决策的潜在影响。现有方法的痛点在于缺乏对人类自主性概念的明确定义和可操作的评估框架。
核心思路:论文的核心思路是构建一个名为HumanAgencyBench(HAB)的基准,该基准基于哲学和科学的自主性理论,并利用大型语言模型(LLM)来模拟用户查询和评估AI的响应。通过定义人类自主性的六个关键维度(提出澄清问题、避免价值操纵、纠正错误信息、推迟重要决策、鼓励学习和维护社会界限),HAB提供了一个结构化的框架来评估AI助手在不同情境下对人类自主性的支持程度。
技术框架:HAB的整体框架包括以下几个主要阶段:1) 定义人类自主性的六个维度;2) 构建包含各种用户查询的测试用例,这些查询旨在评估AI助手在每个维度上的表现;3) 使用LLM模拟用户,并生成针对每个查询的AI响应;4) 使用预定义的评估指标来量化AI响应在每个维度上对人类自主性的支持程度;5) 对不同AI助手进行评估和比较,从而识别其在支持人类自主性方面的优势和劣势。
关键创新:HAB的关键创新在于其将哲学和科学的自主性理论与AI辅助评估方法相结合,从而提供了一个可扩展且自适应的基准来评估AI助手对人类自主性的支持。与现有方法相比,HAB更加关注AI系统对用户决策的潜在影响,并提供了一个更全面和细粒度的评估框架。此外,HAB利用LLM来模拟用户,从而实现了大规模的自动化评估。
关键设计:HAB的关键设计包括:1) 人类自主性的六个维度,这些维度涵盖了AI助手在支持人类自主性方面的关键行为;2) 包含各种用户查询的测试用例,这些查询旨在评估AI助手在每个维度上的表现;3) 预定义的评估指标,这些指标用于量化AI响应在每个维度上对人类自主性的支持程度。具体的参数设置和损失函数取决于所使用的LLM和评估指标,论文中没有详细说明。
📊 实验亮点
实验结果表明,当前基于LLM的AI助手对人类自主性的支持程度较低到中等,并且不同系统开发者和维度之间存在显著差异。例如,Anthropic LLM总体上最支持人类自主性,但在避免价值操纵方面支持最少。研究还发现,自主性支持与LLM的能力或指令遵循行为没有直接关系,这表明需要更强大的安全和对齐目标。
🎯 应用场景
该研究成果可应用于AI助手的设计与评估,帮助开发者构建更尊重人类自主性的AI系统。在医疗、教育、金融等高风险领域,确保AI系统不会过度干预或操纵用户决策至关重要。该基准的未来发展方向包括扩展自主性维度、提高评估的自动化程度以及探索更复杂的交互场景。
📄 摘要(原文)
As humans delegate more tasks and decisions to artificial intelligence (AI), we risk losing control of our individual and collective futures. Relatively simple algorithmic systems already steer human decision-making, such as social media feed algorithms that lead people to unintentionally and absent-mindedly scroll through engagement-optimized content. In this paper, we develop the idea of human agency by integrating philosophical and scientific theories of agency with AI-assisted evaluation methods: using large language models (LLMs) to simulate and validate user queries and to evaluate AI responses. We develop HumanAgencyBench (HAB), a scalable and adaptive benchmark with six dimensions of human agency based on typical AI use cases. HAB measures the tendency of an AI assistant or agent to Ask Clarifying Questions, Avoid Value Manipulation, Correct Misinformation, Defer Important Decisions, Encourage Learning, and Maintain Social Boundaries. We find low-to-moderate agency support in contemporary LLM-based assistants and substantial variation across system developers and dimensions. For example, while Anthropic LLMs most support human agency overall, they are the least supportive LLMs in terms of Avoid Value Manipulation. Agency support does not appear to consistently result from increasing LLM capabilities or instruction-following behavior (e.g., RLHF), and we encourage a shift towards more robust safety and alignment targets.