REFINE: Real-world Exploration of Interactive Feedback and Student Behaviour

📄 arXiv: 2603.29142v1 📥 PDF

作者: Fares Fawzi, Seyed Parsa Neshaei, Marta Knezevic, Tanya Nazaretsky, Tanja Käser

分类: cs.AI, cs.HC

发布日期: 2026-03-31

备注: Accepted to AIED 2026


💡 一句话要点

REFINE:探索交互式反馈与学生行为的真实世界交互式反馈系统

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 交互式反馈 多智能体系统 大型语言模型 教育应用 反馈生成

📋 核心要点

  1. 现有反馈系统通常是静态的单向模式,缺乏对学生提问和澄清的支持,难以实现个性化和高效的反馈。
  2. REFINE提出了一种基于多智能体的交互式反馈系统,利用小型开源LLM,通过裁判指导的再生循环提升反馈质量。
  3. 实验表明,REFINE能有效提高反馈质量,并引导学生进行更深入的提问,证明了其在交互式反馈方面的可行性。

📝 摘要(中文)

形成性反馈是有效学习的核心,但大规模提供及时、个性化的反馈仍然是一个挑战。现有工作主要将反馈视为静态的单向产物,对解释、澄清或跟进的支持有限。本文介绍了REFINE,一个基于小型开源LLM的本地可部署多智能体反馈系统,它将反馈视为一个交互过程。REFINE结合了一个基于教学法的反馈生成智能体、一个由LLM作为裁判指导的再生循环(使用与人类对齐的裁判),以及一个自我反思的工具调用交互式智能体,该智能体通过上下文感知的、可操作的响应来支持学生的后续问题。我们通过受控实验和一个本科计算机科学课程中的真实课堂部署来评估REFINE。自动评估表明,裁判指导的再生显著提高了反馈质量,并且交互式智能体产生了高效、高质量的响应,可与最先进的闭源模型相媲美。对真实学生互动的分析进一步揭示了不同的参与模式,并表明系统生成的反馈系统地引导了后续的学生提问。我们的发现证明了多智能体、工具增强的反馈系统在可扩展的交互式反馈方面的可行性和有效性。

🔬 方法详解

问题定义:现有的大多数反馈系统将反馈视为静态的、单向的输出,缺乏与学生的交互,难以根据学生的具体情况进行个性化调整和深入解释。这导致学生难以充分理解反馈内容,并进行有效的后续学习。因此,如何构建一个能够进行交互、提供上下文感知反馈的系统是本文要解决的问题。

核心思路:REFINE的核心思路是将反馈视为一个交互过程,而非一个静态的产物。通过构建一个多智能体系统,模拟教师与学生之间的互动,从而提供更个性化、更具解释性的反馈。该系统利用LLM生成初始反馈,并通过裁判智能体和再生循环来提升反馈质量,同时提供交互式智能体来回答学生的问题。

技术框架:REFINE系统包含三个主要模块:1) 反馈生成智能体:基于教学法生成初始反馈。2) 裁判指导的再生循环:使用LLM作为裁判,评估反馈质量,并指导反馈生成智能体进行迭代改进。3) 交互式智能体:利用工具调用能力,根据学生的问题和上下文,提供可操作的回答。整体流程是,学生提交作业,反馈生成智能体生成初始反馈,裁判智能体评估并指导再生,最终交互式智能体响应学生提问。

关键创新:REFINE的关键创新在于其多智能体的交互式反馈架构,以及裁判指导的再生循环。与传统的单向反馈系统相比,REFINE能够模拟师生互动,提供更个性化、更具解释性的反馈。裁判指导的再生循环能够有效提升反馈质量,而交互式智能体则能够及时回答学生的问题,促进深入学习。

关键设计:REFINE使用小型开源LLM,降低了部署成本。裁判智能体使用与人类对齐的LLM,以确保反馈质量符合教学标准。交互式智能体使用工具调用能力,例如访问课程材料和学生作业,以便提供上下文感知的回答。具体参数设置和网络结构等细节在论文中未详细说明,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

自动评估表明,裁判指导的再生循环显著提高了反馈质量。交互式智能体生成了高效、高质量的响应,可与最先进的闭源模型相媲美。对真实学生互动的分析表明,系统生成的反馈能够有效地引导学生进行后续提问,并促进更深入的学习。

🎯 应用场景

REFINE可应用于各种教育场景,例如在线课程、编程学习、写作指导等。它可以帮助教师大规模提供个性化反馈,减轻教师负担,提高学生的学习效率和参与度。未来,REFINE可以进一步扩展,例如支持多语言反馈、集成更多教学工具等。

📄 摘要(原文)

Formative feedback is central to effective learning, yet providing timely, individualised feedback at scale remains a persistent challenge. While recent work has explored the use of large language models (LLMs) to automate feedback, most existing systems still conceptualise feedback as a static, one-way artifact, offering limited support for interpretation, clarification, or follow-up. In this work, we introduce REFINE, a locally deployable, multi-agent feedback system built on small, open-source LLMs that treats feedback as an interactive process. REFINE combines a pedagogically-grounded feedback generation agent with an LLM-as-a-judge-guided regeneration loop using a human-aligned judge, and a self-reflective tool-calling interactive agent that supports student follow-up questions with context-aware, actionable responses. We evaluate REFINE through controlled experiments and an authentic classroom deployment in an undergraduate computer science course. Automatic evaluations show that judge-guided regeneration significantly improves feedback quality, and that the interactive agent produces efficient, high-quality responses comparable to a state-of-the-art closed-source model. Analysis of real student interactions further reveals distinct engagement patterns and indicates that system-generated feedback systematically steers subsequent student inquiry. Our findings demonstrate the feasibility and effectiveness of multi-agent, tool-augmented feedback systems for scalable, interactive feedback.