CoTAL: Human-in-the-Loop Prompt Engineering for Generalizable Formative Assessment Scoring

作者: Clayton Cohn, Ashwin T S, Naveeduddin Mohammed, Gautam Biswas

分类: cs.CL

发布日期: 2025-04-03 (更新: 2025-08-13)

备注: Submitted to the International Journal of Artificial Intelligence in Education (IJAIED). Currently under review

💡 一句话要点

CoTAL：人机协同提示工程提升通用形成性评估评分

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 人机协同 提示工程 大型语言模型 形成性评估 思维链 证据中心设计 教育应用

📋 核心要点

现有提示工程方法在教育领域的泛化性不足，难以跨科学、计算、工程等领域应用。
CoTAL方法结合证据中心设计、人机协同提示工程和思维链提示，迭代优化评估和评分。
实验表明，CoTAL显著提升GPT-4的评分性能，最高提升38.9%，并获得师生积极反馈。

📝 摘要（中文）

大型语言模型（LLMs）为辅助教师和支持学生学习创造了新的机会。尽管研究人员已经在教育环境中探索了各种提示工程方法，但这些方法在不同领域（如科学、计算和工程）的泛化程度仍未得到充分探索。在本文中，我们介绍了一种基于LLM的形成性评估评分方法，名为Chain-of-Thought Prompting + Active Learning (CoTAL)。该方法(1)利用以证据为中心的设计（ECD）使评估和评分标准与课程目标保持一致，(2)应用人机协同提示工程来自动化响应评分，以及(3)结合思维链（CoT）提示以及教师和学生的反馈来迭代地改进问题、评分标准和LLM提示。我们的研究结果表明，CoTAL提高了GPT-4在各个领域的评分性能，与非提示工程基线（即没有标记示例、思维链提示或迭代改进）相比，实现了高达38.9%的提升。教师和学生认为CoTAL在评分和解释响应方面是有效的，他们的反馈产生了有价值的见解，从而提高了评分准确性和解释质量。

🔬 方法详解

问题定义：论文旨在解决大型语言模型在形成性评估评分中，跨领域泛化能力不足的问题。现有方法在不同学科间的适应性较差，需要大量特定领域的标注数据和人工干预，成本高昂且效率低下。

核心思路：CoTAL的核心思路是利用人机协同的迭代优化过程，结合证据中心设计（ECD）来指导提示工程，并利用思维链（CoT）提示来提高LLM的推理能力。通过教师和学生的反馈，不断改进问题、评分标准和LLM提示，从而提升评分的准确性和解释性。

技术框架：CoTAL的技术框架主要包含以下几个阶段：1) 基于证据中心设计（ECD）构建评估框架，明确评估目标和证据；2) 使用思维链（CoT）提示LLM进行初步评分；3) 教师和学生对评分结果进行反馈，指出错误和不足；4) 基于反馈，迭代优化问题、评分标准和LLM提示；5) 重复步骤2-4，直至达到满意的评分效果。

关键创新：CoTAL的关键创新在于将人机协同的迭代优化过程引入到提示工程中，并结合证据中心设计（ECD）来指导提示的设计。这种方法能够有效地利用人类的专业知识和反馈，提高LLM在复杂任务中的表现，并降低对大量标注数据的依赖。

关键设计：CoTAL的关键设计包括：1) 使用思维链（CoT）提示，引导LLM逐步推理并给出评分依据；2) 设计清晰明确的反馈机制，方便教师和学生提供有效的反馈；3) 采用迭代优化的策略，不断改进问题、评分标准和LLM提示，提升评分的准确性和解释性。具体的参数设置和损失函数等技术细节在论文中未明确说明，属于未知信息。

🖼️ 关键图片

📊 实验亮点

CoTAL在多个领域（科学、计算、工程）的形成性评估评分任务中，相较于非提示工程基线，取得了显著的性能提升，最高提升幅度达到38.9%。教师和学生对CoTAL的评分结果和解释质量给予了积极评价，并提供了有价值的反馈，进一步提升了CoTAL的性能。

🎯 应用场景

CoTAL方法可应用于各种教育场景，例如自动化作业批改、在线考试评分、个性化学习反馈等。该方法能够减轻教师的负担，提高评分效率和一致性，并为学生提供更及时和个性化的反馈，促进学生的学习和发展。未来，CoTAL有望成为智能教育的重要组成部分。

📄 摘要（原文）

Large language models (LLMs) have created new opportunities to assist teachers and support student learning. While researchers have explored various prompt engineering approaches in educational contexts, the degree to which these approaches generalize across domains--such as science, computing, and engineering--remains underexplored. In this paper, we introduce Chain-of-Thought Prompting + Active Learning (CoTAL), an LLM-based approach to formative assessment scoring that (1) leverages Evidence-Centered Design (ECD) to align assessments and rubrics with curriculum goals, (2) applies human-in-the-loop prompt engineering to automate response scoring, and (3) incorporates chain-of-thought (CoT) prompting and teacher and student feedback to iteratively refine questions, rubrics, and LLM prompts. Our findings demonstrate that CoTAL improves GPT-4's scoring performance across domains, achieving gains of up to 38.9% over a non-prompt-engineered baseline (i.e., without labeled examples, chain-of-thought prompting, or iterative refinement). Teachers and students judge CoTAL to be effective at scoring and explaining responses, and their feedback produces valuable insights that enhance grading accuracy and explanation quality.

CoTAL: Human-in-the-Loop Prompt Engineering for Generalizable Formative Assessment Scoring

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理