From Correctness to Collaboration: Toward a Human-Centered Framework for Evaluating AI Agent Behavior in Software Engineering

📄 arXiv: 2512.23844v1 📥 PDF

作者: Tao Dong, Harini Sampath, Ja Young Lee, Sherry Y. Shi, Andrew Macvean

分类: cs.SE, cs.AI, cs.HC

发布日期: 2025-12-29


💡 一句话要点

提出人本框架以评估软件工程中AI代理行为

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 人机协作 AI代理 软件工程 行为评估 动态框架 大型语言模型 协作智能

📋 核心要点

  1. 现有评估方法主要集中在代码的正确性,无法有效捕捉人机合作中的互动行为。
  2. 本文提出了基础分类法和上下文自适应行为框架,以更全面地评估AI代理的行为。
  3. 通过专家访谈和代理分析,研究揭示了行为期望的动态变化,提供了新的评估视角。

📝 摘要(中文)

随着大型语言模型(LLMs)从代码生成器演变为软件工程师的协作伙伴,现有的评估方法滞后于技术发展。当前的基准测试主要关注代码的正确性,未能捕捉成功的人机合作所需的细微互动行为。为填补这一评估空白,本文提出了两个核心贡献。首先,基于对91组用户定义代理规则的分析,构建了企业软件工程中期望的代理行为基础分类法,定义了四个关键行为期望:遵循标准和流程、确保代码质量和可靠性、有效解决问题以及与用户协作。其次,提出了上下文自适应行为(CAB)框架,揭示了行为期望在时间视角和工作类型两个维度上的动态变化。该研究为设计和评估下一代AI代理提供了人本基础,推动领域关注从代码生成的正确性转向真正的协作智能动态。

🔬 方法详解

问题定义:本文旨在解决现有评估方法无法有效捕捉AI代理与人类工程师之间互动行为的问题。当前的评估主要集中在代码的正确性,忽视了人机合作的复杂性和动态性。

核心思路:论文提出了一种人本框架,强调AI代理在软件工程中的行为期望,并通过分类法和CAB框架来动态评估这些期望。这样的设计旨在更好地反映真实的协作环境。

技术框架:整体架构包括两个主要模块:首先是基础分类法,定义了代理行为的四个关键期望;其次是CAB框架,分析行为期望在时间视角和工作类型上的变化。

关键创新:最重要的创新在于提出了CAB框架,强调行为期望的动态性,这与传统的静态评估方法形成鲜明对比。

关键设计:在分类法中,定义了遵循标准、确保质量、有效解决问题和用户协作等关键行为;CAB框架则通过专家访谈和代理分析,识别出行为期望的变化维度。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

研究通过对15位专家的访谈和91组用户规则的分析,揭示了行为期望的动态变化,提供了新的评估视角。CAB框架的引入为AI代理的设计和评估提供了更为全面的依据,推动了人机协作的研究进展。

🎯 应用场景

该研究的潜在应用领域包括软件开发、项目管理和人机交互设计等。通过提供一个人本框架,能够帮助开发者更好地设计和评估AI代理的行为,从而提升人机协作的效率和质量,推动软件工程的智能化进程。

📄 摘要(原文)

As Large Language Models (LLMs) evolve from code generators into collaborative partners for software engineers, our methods for evaluation are lagging. Current benchmarks, focused on code correctness, fail to capture the nuanced, interactive behaviors essential for successful human-AI partnership. To bridge this evaluation gap, this paper makes two core contributions. First, we present a foundational taxonomy of desirable agent behaviors for enterprise software engineering, derived from an analysis of 91 sets of user-defined agent rules. This taxonomy defines four key expectations of agent behavior: Adhere to Standards and Processes, Ensure Code Quality and Reliability, Solving Problems Effectively, and Collaborating with the User. Second, recognizing that these expectations are not static, we introduce the Context-Adaptive Behavior (CAB) Framework. This emerging framework reveals how behavioral expectations shift along two empirically-derived axes: the Time Horizon (from immediate needs to future ideals), established through interviews with 15 expert engineers, and the Type of Work (from enterprise production to rapid prototyping, for example), identified through a prompt analysis of a prototyping agent. Together, these contributions offer a human-centered foundation for designing and evaluating the next generation of AI agents, moving the field's focus from the correctness of generated code toward the dynamics of true collaborative intelligence.