Augmenting Human-Annotated Training Data with Large Language Model Generation and Distillation in Open-Response Assessment

作者: Conrad Borchers, Danielle R. Thomas, Jionghao Lin, Ralph Abboud, Kenneth R. Koedinger

分类: cs.CL, cs.CY, cs.LG

发布日期: 2025-01-15

备注: Manuscript accepted to the Second Workshop on Generative AI for Learning Analytics (GenAI-LA) at LAK25

💡 一句话要点

利用大语言模型生成数据增强人工标注数据，提升开放式问答评估性能

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 数据增强 文本分类 开放式问答评估 模型蒸馏

📋 核心要点

现有文本分类方法依赖大量人工标注数据，成本高昂且难以扩展，而直接使用LLM进行分类，其可靠性存在问题。
本研究提出一种混合方法，结合人工标注数据和LLM生成的合成数据，训练并蒸馏得到更优的文本分类模型。
实验表明，使用80%合成数据和20%人工标注数据进行训练，可以有效提升分类器性能，且较低的LLM温度设置效果更稳定。

📝 摘要（中文）

大型语言模型（LLM），如GPT-4o，能够以低成本和规模化地自动化文本分类任务。然而，LLM输出的有效性和可靠性存在重大问题。相比之下，人工标注通常更可靠，但大规模获取成本高昂。本研究提出了一种混合解决方案，结合两者的优势。我们将人工标注数据和LLM生成的合成数据相结合，以微调经典的机器学习分类器，并将两者提炼成一个更小的BERT模型。我们在人工标注的测试集上评估我们的方法，以此作为LLM输出质量的有效性衡量标准。在三个实验中，我们根据LLM调优的最佳实践，系统地改变LLM生成样本的大小、多样性和一致性。我们的研究结果表明，使用合成样本增强数据集可以提高分类器性能，当合成数据与人工标注数据的比例达到80%比20%时，效果最佳。较低的温度设置（0.3）对应于LLM生成中较小的变异性，产生了更稳定的改进，但也限制了模型从增强样本中学习。相比之下，较高的温度设置（0.7及以上）引入了更大的性能估计变异性，有时甚至降低了性能。因此，LLM可能产生更统一的输出，导致分类器过早地过拟合，或者产生更多样化的输出，但存在通过与预测任务无关的信息降低模型性能的风险。过滤掉不一致的合成样本并没有提高性能。我们得出结论，整合人工和LLM生成的数据以改进评估中的文本分类模型，提供了一种可扩展的解决方案，既利用了人工标注的准确性，又利用了LLM输出的多样性。

🔬 方法详解

问题定义：论文旨在解决开放式问答评估中，文本分类模型训练数据不足的问题。现有方法要么依赖昂贵的人工标注，要么直接使用LLM，但LLM的输出质量和可靠性难以保证。人工标注成本高，难以扩展；LLM生成数据质量不稳定，可能引入噪声。

核心思路：论文的核心思路是利用LLM生成大量合成数据，并与少量人工标注数据结合，共同训练文本分类模型。通过这种方式，既可以降低对人工标注数据的依赖，又可以利用LLM生成数据的多样性，提升模型的泛化能力。同时，通过蒸馏技术，将训练好的模型压缩成更小的BERT模型，提高部署效率。

技术框架：整体流程包括以下几个阶段： 1. 人工标注数据收集：收集少量高质量的人工标注数据。 2. LLM生成合成数据：使用LLM生成大量与任务相关的合成数据，并控制生成数据的多样性和一致性。 3. 数据混合与训练：将人工标注数据和LLM生成的合成数据混合，用于训练文本分类模型。 4. 模型蒸馏：将训练好的模型蒸馏成一个更小的BERT模型，以提高部署效率。 5. 模型评估：在人工标注的测试集上评估模型的性能。

关键创新：该方法的核心创新在于将人工标注数据和LLM生成的合成数据相结合，并系统地研究了LLM生成数据的规模、多样性和一致性对模型性能的影响。与完全依赖人工标注或LLM的方法相比，该方法能够在保证模型性能的同时，显著降低标注成本。

关键设计：论文的关键设计包括： 1. LLM温度设置：通过调整LLM的温度参数，控制生成数据的多样性。较低的温度生成更一致的数据，较高的温度生成更多样化的数据。 2. 数据比例：研究了人工标注数据和LLM生成数据的最佳比例。实验结果表明，80%合成数据和20%人工标注数据的比例效果最佳。 3. 模型蒸馏：使用蒸馏技术将训练好的模型压缩成更小的BERT模型，以提高部署效率。

📊 实验亮点

实验结果表明，使用LLM生成的合成数据增强人工标注数据可以有效提升文本分类模型的性能。当合成数据与人工标注数据的比例为80%:20%时，模型性能达到最佳。较低的LLM温度设置（0.3）产生更稳定的改进，而较高的温度设置（0.7及以上）可能导致性能下降。过滤不一致的合成样本并没有显著提高性能。

🎯 应用场景

该研究成果可应用于各种开放式问答评估场景，例如教育评估、客户服务、内容审核等。通过结合人工标注和LLM生成的数据，可以构建更准确、更高效的文本分类模型，从而提高评估的自动化程度和效率，降低人工成本。未来，该方法还可以扩展到其他自然语言处理任务中。

📄 摘要（原文）

Large Language Models (LLMs) like GPT-4o can help automate text classification tasks at low cost and scale. However, there are major concerns about the validity and reliability of LLM outputs. By contrast, human coding is generally more reliable but expensive to procure at scale. In this study, we propose a hybrid solution to leverage the strengths of both. We combine human-coded data and synthetic LLM-produced data to fine-tune a classical machine learning classifier, distilling both into a smaller BERT model. We evaluate our method on a human-coded test set as a validity measure for LLM output quality. In three experiments, we systematically vary LLM-generated samples' size, variety, and consistency, informed by best practices in LLM tuning. Our findings indicate that augmenting datasets with synthetic samples improves classifier performance, with optimal results achieved at an 80% synthetic to 20% human-coded data ratio. Lower temperature settings of 0.3, corresponding to less variability in LLM generations, produced more stable improvements but also limited model learning from augmented samples. In contrast, higher temperature settings (0.7 and above) introduced greater variability in performance estimates and, at times, lower performance. Hence, LLMs may produce more uniform output that classifiers overfit to earlier or produce more diverse output that runs the risk of deteriorating model performance through information irrelevant to the prediction task. Filtering out inconsistent synthetic samples did not enhance performance. We conclude that integrating human and LLM-generated data to improve text classification models in assessment offers a scalable solution that leverages both the accuracy of human coding and the variety of LLM outputs.

Augmenting Human-Annotated Training Data with Large Language Model Generation and Distillation in Open-Response Assessment

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理