HumanAgencyBench: Scalable Evaluation of Human Agency Support in AI Assistants
作者: Benjamin Sturgeon, Daniel Samuelson, Jacob Haimes, Jacy Reese Anthis
分类: cs.CY, cs.AI, cs.CL, cs.HC, cs.LG
发布日期: 2025-09-10
💡 一句话要点
提出HumanAgencyBench,用于评估AI助手对人类自主性的支持程度
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 人类自主性 AI助手 大型语言模型 基准测试 伦理评估
📋 核心要点
- 现有AI系统,如社交媒体推荐算法,可能在无意中削弱用户的自主决策能力,引发对AI伦理和控制权转移的担忧。
- 论文核心在于构建HumanAgencyBench (HAB) 基准,通过模拟用户交互,量化评估AI助手在支持人类自主性方面的表现。
- 实验结果表明,现有LLM助手对人类自主性的支持程度参差不齐,且与模型能力或指令遵循行为并非完全正相关。
📝 摘要(中文)
随着人类将越来越多的任务和决策委托给人工智能(AI),我们面临着失去对个人和集体未来控制的风险。相对简单的算法系统已经影响着人类的决策,例如社交媒体的推荐算法引导用户无意识地浏览内容。本文通过整合哲学和科学的自主性理论与AI辅助评估方法,提出了人类自主性的概念:使用大型语言模型(LLM)来模拟和验证用户查询,并评估AI的响应。我们开发了HumanAgencyBench(HAB),这是一个可扩展的自适应基准,包含基于典型AI用例的六个自主性维度。HAB衡量AI助手或代理在提出澄清问题、避免价值操纵、纠正错误信息、推迟重要决策、鼓励学习和维持社会边界方面的倾向。研究发现,当前基于LLM的助手对自主性的支持程度较低到中等,并且不同系统开发者和维度之间存在显著差异。例如,Anthropic LLM在整体上最支持人类自主性,但在避免价值操纵方面支持最少。对自主性的支持似乎并非始终来自于LLM能力的提升或指令遵循行为(例如,RLHF),我们鼓励转向更强大的安全和对齐目标。
🔬 方法详解
问题定义:论文旨在解决如何量化评估AI助手在多大程度上支持人类的自主性(Human Agency)的问题。现有方法缺乏一个统一、可扩展的评估框架,难以衡量AI系统在不同维度上对用户自主性的影响。现有AI系统,例如社交媒体推荐算法,可能在用户不自觉的情况下影响其决策,从而削弱其自主性。
核心思路:论文的核心思路是将哲学和科学领域关于自主性的理论与AI辅助评估方法相结合。具体来说,利用大型语言模型(LLM)来模拟用户查询,并评估AI助手对这些查询的响应,从而量化AI助手在不同自主性维度上的表现。通过构建一个可扩展的基准测试集,可以系统地评估不同AI系统对人类自主性的支持程度。
技术框架:HumanAgencyBench (HAB) 的整体框架包含以下几个主要模块: 1. 用户查询模拟:使用LLM生成模拟用户查询,涵盖不同的AI使用场景。 2. 自主性维度定义:定义了六个关键的自主性维度,包括提出澄清问题、避免价值操纵、纠正错误信息、推迟重要决策、鼓励学习和维持社会边界。 3. AI响应评估:使用LLM评估AI助手对用户查询的响应,并根据预定义的规则和指标,量化其在各个自主性维度上的表现。 4. 基准测试与分析:对不同的AI系统进行基准测试,并分析其在不同自主性维度上的表现差异。
关键创新:该论文的关键创新在于: 1. 自主性维度的系统化定义:将抽象的自主性概念分解为六个可量化的维度,为评估AI助手对自主性的支持程度提供了清晰的框架。 2. 基于LLM的自动化评估方法:利用LLM模拟用户查询和评估AI响应,实现了可扩展的自动化评估流程,降低了评估成本。 3. HumanAgencyBench基准测试集:构建了一个包含多个AI使用场景和自主性维度的基准测试集,为AI研究人员提供了一个统一的评估平台。
关键设计:HAB的关键设计包括: 1. 自主性维度选择:基于哲学和社会科学理论,选择了六个与AI助手交互密切相关的自主性维度。 2. LLM选择与调优:选择了具有代表性的LLM作为用户模拟器和评估器,并进行了适当的调优,以提高评估的准确性和可靠性。 3. 评估指标设计:为每个自主性维度设计了具体的评估指标,例如,对于“避免价值操纵”维度,评估指标包括AI助手是否试图影响用户的价值观或偏好。
🖼️ 关键图片
📊 实验亮点
实验结果表明,当前LLM助手对人类自主性的支持程度较低到中等,并且不同系统开发者和维度之间存在显著差异。例如,Anthropic LLM在整体上最支持人类自主性,但在避免价值操纵方面支持最少。研究还发现,对自主性的支持似乎并非始终来自于LLM能力的提升或指令遵循行为(例如,RLHF)。
🎯 应用场景
该研究成果可应用于AI伦理评估、AI系统设计和监管等领域。开发者可以利用HumanAgencyBench评估和改进其AI助手,使其更好地支持人类自主性。监管机构可以利用该基准来制定AI伦理标准和评估AI系统的潜在风险。此外,该研究还可以促进人们对AI自主性的更深入理解,并推动相关领域的学术研究。
📄 摘要(原文)
As humans delegate more tasks and decisions to artificial intelligence (AI), we risk losing control of our individual and collective futures. Relatively simple algorithmic systems already steer human decision-making, such as social media feed algorithms that lead people to unintentionally and absent-mindedly scroll through engagement-optimized content. In this paper, we develop the idea of human agency by integrating philosophical and scientific theories of agency with AI-assisted evaluation methods: using large language models (LLMs) to simulate and validate user queries and to evaluate AI responses. We develop HumanAgencyBench (HAB), a scalable and adaptive benchmark with six dimensions of human agency based on typical AI use cases. HAB measures the tendency of an AI assistant or agent to Ask Clarifying Questions, Avoid Value Manipulation, Correct Misinformation, Defer Important Decisions, Encourage Learning, and Maintain Social Boundaries. We find low-to-moderate agency support in contemporary LLM-based assistants and substantial variation across system developers and dimensions. For example, while Anthropic LLMs most support human agency overall, they are the least supportive LLMs in terms of Avoid Value Manipulation. Agency support does not appear to consistently result from increasing LLM capabilities or instruction-following behavior (e.g., RLHF), and we encourage a shift towards more robust safety and alignment targets.