"I didn't Make the Micro Decisions": Measuring, Inducing, and Exposing Goal-Level AI Contributions in Collaboration

作者: Eunsu Kim, Jessica R. Mindel, Kyungjin Kim, Sherry Tongshuang Wu

分类: cs.CL

发布日期: 2026-05-20

💡 一句话要点

提出CoTrace框架，用于衡量人机协作中AI在目标塑造上的贡献

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 人机协作 目标塑造 贡献归因 大型语言模型 对话系统

📋 核心要点

现有方法侧重于最终结果，忽略了人机协作中目标共同塑造的过程，难以准确评估AI的贡献。
CoTrace框架将目标分解为可验证的需求，追踪AI在对话中的直接贡献和间接影响，实现目标级归因。
实验表明，AI在目标塑造中贡献占比11-26%，但在引入具体需求方面贡献显著，且交互设计影响AI行为。

📝 摘要（中文）

随着大型语言模型（LLMs）日益影响用户形成、完善和扩展目标的方式，在人机协作中归因贡献对于用户校准自身依赖以及评估者评估AI辅助工作至关重要。然而，现有方法侧重于最终成果，忽略了目标本身被共同塑造的过程。我们引入了一个目标级归因框架CoTrace，它将显式目标分解为可验证的需求，并追踪跨对话轮次的直接贡献和间接影响。通过将CoTrace应用于638个真实世界的协作日志，我们发现，虽然模型仅占目标塑造贡献的11-26%，但它们在引入较低层次的具体需求方面贡献显著，并做出各种间接贡献。通过受控模拟，我们表明交互设计选择会显著影响模型的目标塑造行为。在一项用户研究中，向参与者展示目标级分析，使其感知到的贡献转移了近2个点（5分制），揭示了用户在理解自身AI辅助工作方式上的系统性错误校准。

🔬 方法详解

问题定义：现有的人机协作贡献评估方法主要关注最终产物，缺乏对目标形成过程的细粒度分析，无法准确衡量AI在目标塑造过程中的贡献。这导致用户难以校准对AI的信任，也影响了对AI辅助工作的评估。因此，需要一种能够追踪和量化AI在目标塑造过程中贡献的方法。

核心思路：论文的核心思路是将目标分解为更小的、可验证的需求，然后追踪AI在对话过程中对这些需求的直接贡献和间接影响。通过这种方式，可以更细致地了解AI在目标塑造过程中的作用，从而更准确地评估其贡献。这种分解和追踪的方法能够揭示AI在不同层级目标上的贡献差异，并帮助用户更好地理解AI的辅助作用。

技术框架：CoTrace框架包含以下几个主要模块：1) 目标分解模块：将用户的初始目标分解为一系列可验证的需求。2) 贡献追踪模块：追踪对话过程中AI对每个需求的直接贡献（例如，直接提出一个需求）和间接影响（例如，通过提问引导用户提出需求）。3) 归因分析模块：基于追踪到的贡献和影响，计算AI在不同层级目标上的贡献占比。4) 可视化模块：将归因分析的结果以可视化的方式呈现给用户，帮助用户理解AI的贡献。

关键创新：该论文的关键创新在于提出了一个目标级的归因框架，能够细粒度地追踪和量化AI在人机协作中目标塑造过程中的贡献。与以往只关注最终产物的方法不同，CoTrace关注目标形成的过程，能够更全面地评估AI的价值。此外，CoTrace还考虑了AI的间接影响，例如通过提问引导用户提出需求，这使得归因结果更加准确。

关键设计：在目标分解模块中，论文采用了一种基于规则的方法，将目标分解为一系列可验证的需求。贡献追踪模块使用了一种基于对话状态追踪的技术，记录AI在对话中对每个需求的直接贡献和间接影响。归因分析模块使用了一种加权平均的方法，根据不同需求的优先级和AI的贡献程度，计算AI在不同层级目标上的贡献占比。用户研究中，通过改变交互界面，暴露AI在目标塑造过程中的贡献，观察用户对AI贡献的感知变化。

🖼️ 关键图片

📊 实验亮点

实验结果表明，AI在目标塑造贡献中占比11-26%，但在引入具体需求方面贡献显著。通过改变交互设计，暴露AI在目标塑造过程中的贡献，用户对AI贡献的感知平均提升了近2个点（5分制）。这表明用户对AI在目标塑造过程中的贡献存在系统性低估，而CoTrace框架可以有效纠正这种偏差。

🎯 应用场景

该研究成果可应用于各种人机协作场景，例如AI助手、智能客服、协同设计等。通过CoTrace框架，可以帮助用户更好地理解AI的辅助作用，校准对AI的信任，并提高协作效率。此外，该框架还可以用于评估不同AI系统的性能，指导AI系统的设计和优化，使其更好地服务于人类用户。

📄 摘要（原文）

As large language models (LLMs) increasingly shape how users form, refine, and extend their goals, attributing contributions in human-AI collaboration becomes critical for users calibrating their own reliance and for evaluators assessing AI-assisted work. Yet existing methods focus on final artifacts, missing the process through which goals themselves are jointly shaped. We introduce a goal-level attribution framework, CoTrace, that decomposes explicit goals into verifiable requirements and traces both direct contributions and indirect influences across dialogue turns. Applying CoTrace to 638 real-world collaboration logs, we find that while models account for only 11-26% of goal-shaping contribution, they contribute substantially more on introducing lower-level concrete requirements, and make various kinds of indirect contributions. Through controlled simulations, we show that interaction design choices significantly affect model goal-shaping behavior. In a user study, exposing participants to goal-level analyses shifts their perceived contributions by nearly 2 points on a 5-point scale, revealing systematic miscalibration in how users understand their own AI-assisted work.

"I didn't Make the Micro Decisions": Measuring, Inducing, and Exposing Goal-Level AI Contributions in Collaboration

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理