Prototypical Human-AI Collaboration Behaviors from LLM-Assisted Writing in the Wild
作者: Sheshera Mysore, Debarati Das, Hancheng Cao, Bahareh Sarrafzadeh
分类: cs.CL, cs.HC
发布日期: 2025-05-21 (更新: 2025-06-21)
备注: Pre-print under-review
💡 一句话要点
提出原型人机协作行为(PATHs),分析LLM辅助写作中用户与AI的交互模式。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 人机协作 大型语言模型 写作辅助 用户行为分析 交互模式 原型行为 LLM对齐
📋 核心要点
- 现有研究在分析人机协作写作时,通常侧重于任务分类和满意度评估,缺乏对用户交互行为模式的深入理解。
- 本文提出原型人机协作行为(PATHs)的概念,旨在识别和描述用户在使用LLM进行写作时常见的交互模式。
- 通过对实际用户数据的分析,发现少数PATHs能够解释用户与LLM交互中的大部分变化,并揭示了写作意图与协作行为之间的关联。
📝 摘要(中文)
随着大型语言模型(LLMs)被应用于复杂的写作工作流程中,用户通过多轮交互来引导生成结果,使其更好地满足自身需求。用户不再是被动地接受输出,而是积极地改进、探索和共同构建文本。本文对用户在使用Bing Copilot和WildChat这两款流行的AI助手进行写作任务时的协作行为进行了大规模分析。我们的分析超越了以往工作中常见的简单任务分类或满意度评估,而是描述了用户在整个会话过程中与LLM的交互方式。我们识别出了用户在初始请求后,通过提示与LLM交互的原型行为,称之为原型人机协作行为(PATHs)。研究发现,少数PATHs可以解释用户-LLM交互中的大部分变化。这些PATHs涵盖了用户修改意图、探索文本、提出问题、调整风格或注入新内容等行为。此外,我们还发现了特定写作意图与PATHs之间存在统计学意义上的相关性,揭示了用户的意图如何塑造他们的协作行为。最后,我们讨论了研究结果对LLM对齐的影响。
🔬 方法详解
问题定义:现有的人机协作写作研究主要关注任务完成度和用户满意度,缺乏对用户与LLM之间交互行为模式的细致刻画。这使得我们难以理解用户如何有效地利用LLM来辅助写作,以及如何改进LLM以更好地满足用户的写作需求。现有方法的痛点在于无法量化和抽象用户在与LLM交互过程中的行为模式。
核心思路:本文的核心思路是通过大规模分析用户与LLM的交互数据,识别出具有代表性的交互行为模式,即原型人机协作行为(PATHs)。这些PATHs可以看作是用户在与LLM进行写作协作时所采用的“策略”或“技巧”。通过分析这些PATHs,可以深入了解用户如何利用LLM来完成不同的写作任务,并为LLM的改进提供指导。
技术框架:本文的技术框架主要包括以下几个步骤:1) 数据收集:收集用户在使用Bing Copilot和WildChat进行写作任务时的交互数据,包括用户的提示和LLM的回复。2) 行为标注:人工标注用户的提示,识别出用户在提示中表现出的行为,例如修改意图、探索文本、提出问题等。3) PATHs识别:基于标注数据,使用聚类算法或其他方法识别出具有代表性的交互行为模式,即PATHs。4) 关联分析:分析不同的写作意图与PATHs之间的关联,揭示用户的意图如何影响他们的协作行为。5) 统计分析:进行统计显著性检验,验证PATHs的有效性和可靠性。
关键创新:本文最重要的技术创新点在于提出了原型人机协作行为(PATHs)的概念,并将其应用于分析LLM辅助写作中的用户交互行为。与现有方法相比,PATHs提供了一种更细粒度、更具解释性的方式来理解用户与LLM之间的交互。PATHs不仅可以用于描述用户的行为,还可以用于预测用户的行为,并为LLM的改进提供指导。现有方法通常关注任务完成度或用户满意度等宏观指标,而PATHs则关注用户在交互过程中的具体行为,从而能够更深入地理解用户与LLM之间的协作关系。
关键设计:本文的关键设计包括:1) PATHs的定义:PATHs被定义为用户在初始请求后,通过提示与LLM交互的原型行为。2) 行为标注体系:设计了一套全面的行为标注体系,用于描述用户在提示中表现出的各种行为。3) 聚类算法的选择:选择了合适的聚类算法,用于从标注数据中识别出具有代表性的PATHs。4) 统计分析方法:采用了合适的统计分析方法,用于验证PATHs的有效性和可靠性,并分析写作意图与PATHs之间的关联。具体的参数设置、损失函数、网络结构等技术细节在论文中未详细说明,属于未知信息。
🖼️ 关键图片
📊 实验亮点
研究发现,少数PATHs可以解释用户-LLM交互中的大部分变化。具体而言,用户修改意图、探索文本、提出问题、调整风格或注入新内容等行为可以通过少数几个典型的PATHs来概括。此外,研究还发现特定写作意图与PATHs之间存在统计学意义上的相关性,例如,当用户希望LLM生成特定风格的文本时,他们更倾向于使用调整风格相关的PATHs。
🎯 应用场景
该研究成果可应用于改进LLM的对齐策略,使其更好地理解用户的写作意图,并提供更有效的写作辅助。此外,该研究还可以用于设计更智能的人机协作界面,提升用户的写作体验和效率。未来的潜在应用包括个性化写作助手、智能内容生成工具以及教育领域的写作辅导系统。
📄 摘要(原文)
As large language models (LLMs) are used in complex writing workflows, users engage in multi-turn interactions to steer generations to better fit their needs. Rather than passively accepting output, users actively refine, explore, and co-construct text. We conduct a large-scale analysis of this collaborative behavior for users engaged in writing tasks in the wild with two popular AI assistants, Bing Copilot and WildChat. Our analysis goes beyond simple task classification or satisfaction estimation common in prior work and instead characterizes how users interact with LLMs through the course of a session. We identify prototypical behaviors in how users interact with LLMs in prompts following their original request. We refer to these as Prototypical Human-AI Collaboration Behaviors (PATHs) and find that a small group of PATHs explain a majority of the variation seen in user-LLM interaction. These PATHs span users revising intents, exploring texts, posing questions, adjusting style or injecting new content. Next, we find statistically significant correlations between specific writing intents and PATHs, revealing how users' intents shape their collaboration behaviors. We conclude by discussing the implications of our findings on LLM alignment.