Towards interactive evaluations for interaction harms in human-AI systems

📄 arXiv: 2405.10632v7 📥 PDF

作者: Lujain Ibrahim, Saffron Huang, Umang Bhatt, Lama Ahmad, Markus Anderljung

分类: cs.CY, cs.AI, cs.HC

发布日期: 2024-05-17 (更新: 2025-07-30)


💡 一句话要点

提出交互式评估方法,解决人机系统中因持续交互产生的伦理危害评估难题

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 人机交互 伦理评估 交互危害 人工智能治理 交互式评估

📋 核心要点

  1. 现有AI评估方法是静态的,无法捕捉人机交互中随时间产生的伦理危害,如认知依赖。
  2. 论文提出基于交互伦理的评估方法,通过模拟真实交互场景来评估AI系统。
  3. 该方法强调生态有效性、人类影响指标和多样化参与,以提升评估的有效性。

📝 摘要(中文)

当前的人工智能评估方法依赖于静态的、仅基于模型的测试,无法考虑到在持续的人机交互中产生的危害。随着人工智能系统的普及并日益融入实际应用,评估方法与实际使用之间的脱节变得越来越重要。本文提出了一种基于交互伦理的评估方法,该方法侧重于“交互危害”,即通过重复交互随时间发展而产生的问题,如不适当的类社会关系、社会操纵和认知过度依赖,而不是通过孤立的输出来评估。我们首先讨论了当前评估方法的局限性,这些方法(1)是静态的,(2)假设通用的用户体验,并且(3)具有有限的结构效度。借鉴人机交互、自然语言处理和社会科学的研究,我们提出了设计交互式评估的实用原则。这些原则包括生态有效的交互场景、人类影响指标和多样化的人类参与方法。最后,我们探讨了研究人员、从业人员和监管机构将交互式评估整合到人工智能治理框架中的实施挑战和开放研究问题。这项工作为开发更有效的评估方法奠定了基础,这些方法可以更好地捕捉人类与人工智能系统之间复杂的动态关系。

🔬 方法详解

问题定义:当前AI评估方法主要基于静态模型测试,忽略了人机交互过程中产生的伦理危害,例如用户对AI系统的过度依赖、不适当的类社交关系以及AI系统的社会操纵。这些危害往往在长时间的交互中逐渐显现,而现有方法无法有效捕捉和评估这些动态变化,导致评估结果与实际应用场景脱节。

核心思路:论文的核心思路是引入“交互式评估”的概念,将评估过程置于模拟真实用户交互的动态环境中。通过观察用户与AI系统在特定场景下的持续互动,评估系统是否会引发或加剧上述伦理危害。这种方法强调评估的动态性和情境性,力求更真实地反映AI系统在实际应用中的潜在风险。

技术框架:该论文并未提出一个具体的、可直接实现的技术框架,而是侧重于提出设计交互式评估的原则和方法。其核心在于构建生态有效的交互场景,设计能够量化人类影响的指标,并确保评估过程中的人类参与具有多样性。具体来说,可能包括以下阶段:1) 定义评估目标和伦理危害;2) 设计模拟真实用户交互的场景;3) 选择或开发合适的评估指标;4) 招募多样化的用户群体参与评估;5) 分析用户交互数据,评估AI系统的伦理风险。

关键创新:该论文的关键创新在于将伦理评估的视角从静态的模型输出转向动态的人机交互过程。它强调了评估的“交互性”,认为伦理危害并非仅仅由AI系统本身决定,而是由AI系统与用户之间的互动共同塑造。这种观点转变促使我们重新思考AI评估的方法和目标,更加关注AI系统在实际应用中的潜在社会影响。

关键设计:论文强调了几个关键设计原则:1) 生态有效性:评估场景应尽可能模拟真实世界的使用情境,以提高评估结果的可靠性。2) 人类影响指标:需要设计能够量化用户认知、情感和行为变化的指标,例如用户对AI系统的信任度、依赖程度、以及是否受到社会操纵等。3) 多样化参与:应招募来自不同背景、具有不同经验的用户参与评估,以避免评估结果的偏差。

📊 实验亮点

该论文提出了交互式评估的概念,强调了评估人机交互系统中伦理危害的动态性和情境性。虽然没有提供具体的性能数据,但其核心贡献在于转变了AI评估的视角,为未来的AI伦理评估方法研究奠定了基础,并为AI治理提供了新的思路。

🎯 应用场景

该研究成果可应用于各类人机交互系统的伦理风险评估,例如聊天机器人、虚拟助手、社交媒体推荐系统等。通过交互式评估,可以更有效地识别和预防AI系统可能引发的伦理问题,从而提升用户体验,维护社会公平,并促进负责任的AI发展。该方法对AI治理和监管具有重要意义。

📄 摘要(原文)

Current AI evaluation methods, which rely on static, model-only tests, fail to account for harms that emerge through sustained human-AI interaction. As AI systems proliferate and are increasingly integrated into real-world applications, this disconnect between evaluation approaches and actual usage becomes more significant. In this paper, we propose a shift towards evaluation based on \textit{interactional ethics}, which focuses on \textit{interaction harms} - issues like inappropriate parasocial relationships, social manipulation, and cognitive overreliance that develop over time through repeated interaction, rather than through isolated outputs. First, we discuss the limitations of current evaluation methods, which (1) are static, (2) assume a universal user experience, and (3) have limited construct validity. Drawing on research from human-computer interaction, natural language processing, and the social sciences, we present practical principles for designing interactive evaluations. These include ecologically valid interaction scenarios, human impact metrics, and diverse human participation approaches. Finally, we explore implementation challenges and open research questions for researchers, practitioners, and regulators aiming to integrate interactive evaluations into AI governance frameworks. This work lays the groundwork for developing more effective evaluation methods that better capture the complex dynamics between humans and AI systems.