"I didn't Make the Micro Decisions": Measuring, Inducing, and Exposing Goal-Level AI Contributions in Collaboration
作者: Eunsu Kim, Jessica R. Mindel, Kyungjin Kim, Sherry Tongshuang Wu
分类: cs.CL
发布日期: 2026-05-20
💡 一句话要点
提出CoTrace框架,用于衡量人机协作中AI在目标塑造上的贡献
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 人机协作 目标塑造 贡献归因 大型语言模型 对话系统
📋 核心要点
- 现有方法侧重于最终结果,忽略了人机协作中目标共同塑造的过程,难以准确评估AI的贡献。
- CoTrace框架将目标分解为可验证的需求,追踪AI在对话中的直接贡献和间接影响,实现目标级归因。
- 实验表明,AI在目标塑造中贡献占比11-26%,但在引入具体需求方面贡献显著,且交互设计影响AI行为。
📝 摘要(中文)
随着大型语言模型(LLMs)日益影响用户形成、完善和扩展目标的方式,在人机协作中归因贡献对于用户校准自身依赖以及评估者评估AI辅助工作至关重要。然而,现有方法侧重于最终成果,忽略了目标本身被共同塑造的过程。我们引入了一个目标级归因框架CoTrace,它将显式目标分解为可验证的需求,并追踪跨对话轮次的直接贡献和间接影响。通过将CoTrace应用于638个真实世界的协作日志,我们发现,虽然模型仅占目标塑造贡献的11-26%,但它们在引入较低层次的具体需求方面贡献显著,并做出各种间接贡献。通过受控模拟,我们表明交互设计选择会显著影响模型的目标塑造行为。在一项用户研究中,向参与者展示目标级分析,使其感知到的贡献转移了近2个点(5分制),揭示了用户在理解自身AI辅助工作方式上的系统性错误校准。
🔬 方法详解
问题定义:现有的人机协作贡献评估方法主要关注最终产物,缺乏对目标形成过程的细粒度分析,无法准确衡量AI在目标塑造过程中的贡献。这导致用户难以校准对AI的信任,也影响了对AI辅助工作的评估。因此,需要一种能够追踪和量化AI在目标塑造过程中贡献的方法。
核心思路:论文的核心思路是将目标分解为更小的、可验证的需求,然后追踪AI在对话过程中对这些需求的直接贡献和间接影响。通过这种方式,可以更细致地了解AI在目标塑造过程中的作用,从而更准确地评估其贡献。这种分解和追踪的方法能够揭示AI在不同层级目标上的贡献差异,并帮助用户更好地理解AI的辅助作用。
技术框架:CoTrace框架包含以下几个主要模块:1) 目标分解模块:将用户的初始目标分解为一系列可验证的需求。2) 贡献追踪模块:追踪对话过程中AI对每个需求的直接贡献(例如,直接提出一个需求)和间接影响(例如,通过提问引导用户提出需求)。3) 归因分析模块:基于追踪到的贡献和影响,计算AI在不同层级目标上的贡献占比。4) 可视化模块:将归因分析的结果以可视化的方式呈现给用户,帮助用户理解AI的贡献。
关键创新:该论文的关键创新在于提出了一个目标级的归因框架,能够细粒度地追踪和量化AI在人机协作中目标塑造过程中的贡献。与以往只关注最终产物的方法不同,CoTrace关注目标形成的过程,能够更全面地评估AI的价值。此外,CoTrace还考虑了AI的间接影响,例如通过提问引导用户提出需求,这使得归因结果更加准确。
关键设计:在目标分解模块中,论文采用了一种基于规则的方法,将目标分解为一系列可验证的需求。贡献追踪模块使用了一种基于对话状态追踪的技术,记录AI在对话中对每个需求的直接贡献和间接影响。归因分析模块使用了一种加权平均的方法,根据不同需求的优先级和AI的贡献程度,计算AI在不同层级目标上的贡献占比。用户研究中,通过改变交互界面,暴露AI在目标塑造过程中的贡献,观察用户对AI贡献的感知变化。
🖼️ 关键图片
📊 实验亮点
实验结果表明,AI在目标塑造贡献中占比11-26%,但在引入具体需求方面贡献显著。通过改变交互设计,暴露AI在目标塑造过程中的贡献,用户对AI贡献的感知平均提升了近2个点(5分制)。这表明用户对AI在目标塑造过程中的贡献存在系统性低估,而CoTrace框架可以有效纠正这种偏差。
🎯 应用场景
该研究成果可应用于各种人机协作场景,例如AI助手、智能客服、协同设计等。通过CoTrace框架,可以帮助用户更好地理解AI的辅助作用,校准对AI的信任,并提高协作效率。此外,该框架还可以用于评估不同AI系统的性能,指导AI系统的设计和优化,使其更好地服务于人类用户。
📄 摘要(原文)
As large language models (LLMs) increasingly shape how users form, refine, and extend their goals, attributing contributions in human-AI collaboration becomes critical for users calibrating their own reliance and for evaluators assessing AI-assisted work. Yet existing methods focus on final artifacts, missing the process through which goals themselves are jointly shaped. We introduce a goal-level attribution framework, CoTrace, that decomposes explicit goals into verifiable requirements and traces both direct contributions and indirect influences across dialogue turns. Applying CoTrace to 638 real-world collaboration logs, we find that while models account for only 11-26% of goal-shaping contribution, they contribute substantially more on introducing lower-level concrete requirements, and make various kinds of indirect contributions. Through controlled simulations, we show that interaction design choices significantly affect model goal-shaping behavior. In a user study, exposing participants to goal-level analyses shifts their perceived contributions by nearly 2 points on a 5-point scale, revealing systematic miscalibration in how users understand their own AI-assisted work.