Calibrating Generative AI to Produce Realistic Essays for Data Augmentation

📄 arXiv: 2602.06772v1 📥 PDF

作者: Edward W. Wolfe, Justin O. Barber

分类: cs.LG

发布日期: 2026-02-06

备注: Artificial Intelligence in Measurement and Education Conference (AIME-Con)


💡 一句话要点

利用生成式AI校准生成逼真作文,用于数据增强,提升自动评分引擎性能。

🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 数据增强 大型语言模型 自动评分引擎 提示工程 文本生成

📋 核心要点

  1. 自动评分引擎训练数据有限是制约其性能的关键问题,数据增强是有效的解决方案。
  2. 论文探索了三种基于大型语言模型的提示策略,旨在生成高质量且逼真的作文,用于数据增强。
  3. 实验表明,“预测下一个”提示策略在评分一致性、质量保持和文本逼真度方面表现优异。

📝 摘要(中文)

本研究旨在评估三种大型语言模型提示方法生成作文的质量,以及它们在增强自动评分引擎(ASE)训练数据集时产生逼真文本的能力。数据增强可以缓解机器学习中用于构建反应项的自动评分引擎训练数据有限的问题。我们创建了模拟的学生作文,并让人工评分员对它们进行评分,并评估生成文本的逼真度。研究结果表明,“预测下一个”提示策略在模拟作文评分方面,人工评分员之间的一致性最高。“预测下一个”和“句子”策略在模拟作文中最好地保留了原始作文的评分质量。“预测下一个”和“25个例子”策略产生了人工评分员认为最逼真的文本。

🔬 方法详解

问题定义:论文旨在解决自动评分引擎(ASE)训练数据不足的问题。现有方法在生成用于数据增强的文本时,往往难以保证生成文本的质量和真实性,从而影响ASE的训练效果。

核心思路:论文的核心思路是利用大型语言模型(LLM)的强大生成能力,通过精心设计的提示策略,生成高质量且逼真的作文,用于数据增强。通过人工评估生成文本的质量和真实性,选择最优的提示策略。

技术框架:论文的技术框架主要包括以下几个步骤:1) 收集原始学生作文数据集;2) 设计三种不同的LLM提示策略(“预测下一个”、“句子”、“25个例子”);3) 使用LLM生成模拟学生作文;4) 让人工评分员对模拟作文进行评分,并评估其真实性;5) 分析评分结果,比较不同提示策略的性能。

关键创新:论文的关键创新在于探索了不同的LLM提示策略对生成作文质量和真实性的影响,并找到了在自动评分引擎数据增强任务中表现最佳的提示策略。该研究为利用LLM进行数据增强提供了有价值的指导。

关键设计:论文的关键设计包括:1) 三种提示策略的具体实现方式;2) 人工评分员的评分标准和流程;3) 评分结果的统计分析方法。例如,“预测下一个”提示策略是指给定作文的前半部分,让LLM预测后半部分;“句子”提示策略是指给定作文的上下文,让LLM生成一个句子;“25个例子”提示策略是指向LLM提供25个示例作文,然后让LLM生成新的作文。

📊 实验亮点

实验结果表明,“预测下一个”提示策略在人工评分员一致性、原始作文质量保持和生成文本真实性方面均表现最佳。该策略生成的模拟作文在评分一致性上优于其他策略,并且能够较好地保留原始作文的质量,同时生成更逼真的文本,为自动评分引擎的数据增强提供了有效途径。

🎯 应用场景

该研究成果可应用于教育领域,用于提升自动评分引擎的性能,减轻教师的阅卷负担。通过生成高质量的模拟作文,可以有效扩充训练数据集,提高自动评分的准确性和可靠性。此外,该方法也可推广到其他自然语言处理任务中,用于生成各种类型的文本数据,以增强模型的泛化能力。

📄 摘要(原文)

Data augmentation can mitigate limited training data in machine-learning automated scoring engines for constructed response items. This study seeks to determine how well three approaches to large language model prompting produce essays that preserve the writing quality of the original essays and produce realistic text for augmenting ASE training datasets. We created simulated versions of student essays, and human raters assigned scores to them and rated the realism of the generated text. The results of the study indicate that the predict next prompting strategy produces the highest level of agreement between human raters regarding simulated essay scores, predict next and sentence strategies best preserve the rated quality of the original essay in the simulated essays, and predict next and 25 examples strategies produce the most realistic text as judged by human raters.