FOXGLOVE: Understanding Goal-Oriented and Anchored Writing Feedback from Experts and LLMs on Argumentative Essays

📄 arXiv: 2606.06271v1 📥 PDF

作者: Yijun Liu, Yifan Song, John Gallagher, Sarah Sterman, Tal August

分类: cs.CL, cs.HC

发布日期: 2026-06-04


💡 一句话要点

提出FOXGLOVE以系统比较专家与LLM在写作反馈中的差异

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 写作反馈 大型语言模型 教育技术 数据集构建 专家评分

📋 核心要点

  1. 现有的写作反馈方法缺乏对LLM与专家反馈的系统比较,尤其是在目标导向和具体句子反馈方面。
  2. 本文提出FOXGLOVE数据集,通过系统收集专家与LLM的反馈,分析其在写作反馈中的异同。
  3. 实验结果显示,尽管LLM的反馈在质量评分上普遍较高,但其复杂性和提问数量与专家反馈存在显著差异。

📝 摘要(中文)

随着大型语言模型(LLMs)在生成写作反馈中的应用日益增多,尚缺乏对LLM与专家反馈在写作研究中识别的修订核心维度的系统比较。本文介绍了FOXGLOVE,一个包含696条由训练有素的写作教师对69篇十二年级论证性文章的反馈评论的数据集,并与在共享协议下生成的1,644条来自四个前沿LLM的评论配对,总计2,340条评论。研究发现,教师与LLM在反馈的目标和文章位置分布上相似,但在具体句子上存在分歧。此外,LLM的反馈通常更复杂,提问较少。尽管LLM在大多数质量维度上获得了更高的评分,但这一优势在很大程度上归因于评论的长度。FOXGLOVE使得人类与LLM反馈的对比更加系统化。

🔬 方法详解

问题定义:本文旨在解决大型语言模型(LLMs)与专家在写作反馈中存在的系统性比较不足的问题。现有方法未能有效识别反馈的目标导向、具体句子锚定及优先级等关键维度的差异。

核心思路:通过构建FOXGLOVE数据集,系统收集并分析专家与LLM的反馈,揭示其在写作反馈中的相似性与差异性,以便更好地理解两者的反馈机制。

技术框架:研究首先收集696条专家反馈与1,644条LLM生成的反馈,随后对这些反馈进行质量评分和维度分析,最后比较两者在目标导向和具体句子反馈上的差异。

关键创新:FOXGLOVE数据集的构建及其系统比较方法是本研究的核心创新,提供了一个新的视角来理解人类与LLM在写作反馈中的异同。

关键设计:在数据收集过程中,采用了统一的反馈生成协议,并对反馈进行专家评分,确保了数据的可靠性和有效性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,LLM在大多数质量维度上获得了更高的评分,尤其是在反馈的复杂性方面,LLM的反馈更为详尽。然而,这一优势主要源于评论的长度,且LLM的提问数量显著低于专家反馈。

🎯 应用场景

该研究的潜在应用领域包括教育技术、写作辅助工具和自动化反馈系统。通过理解专家与LLM反馈的异同,教育工作者可以更有效地利用LLM来辅助学生写作,提高写作质量和学习效果。

📄 摘要(原文)

While large language models (LLMs) are increasingly used to generate writing feedback, there remains no systematic comparison of LLM and expert feedback on the dimensions that writing research identifies as central to revision: goal-orientation, anchoring to specific sentences, and prioritization. We introduce FOXGLOVE, a dataset of 696 feedback comments written by trained writing instructors on 69 twelfth-grade argumentative essays, paired with 1,644 comments generated from four frontier LLMs under a shared protocol, totaling 2,340 comments. We provide expert quality ratings on a subset of both instructor and LLM comments. We find that instructors and LLMs distribute feedback similarly across goals and essay positions, yet instructors and models diverge on the specific sentences on which to provide feedback. Additionally, we find that models tend to write more complex feedback and use fewer questions than instructors. LLM feedback also receives higher ratings on most dimensions of quality, as rated by instructors, but much of this advantage appears to be attributable to lengthier comments. FOXGLOVE enables systematic comparison of where human and LLM feedback align, diverge, and differ.