Findings of the BEA 2025 Shared Task on Pedagogical Ability Assessment of AI-powered Tutors

📄 arXiv: 2507.10579v1 📥 PDF

作者: Ekaterina Kochmar, Kaushal Kumar Maurya, Kseniia Petukhova, KV Aditya Srivatsa, Anaïs Tack, Justin Vasselli

分类: cs.CY, cs.AI, cs.CL

发布日期: 2025-07-11

备注: Proceedings of the 20th Workshop on Innovative Use of NLP for Building Educational Applications


💡 一句话要点

BEA 2025共享任务:评估AI辅导系统在教育对话中教学能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: AI辅导系统 教学能力评估 教育对话 大型语言模型 共享任务

📋 核心要点

  1. 现有AI辅导系统在教育对话中,对学生错误的识别、定位和有效指导方面仍存在不足,难以提供高质量的个性化教学。
  2. 本次共享任务旨在通过多赛道评测,全面评估AI辅导系统在错误识别、定位、指导和反馈等方面的教学能力。
  3. 实验结果表明,现有模型在教学能力评估方面仍有提升空间,为未来研究提供了宝贵的数据集和基准。

📝 摘要(中文)

本次共享任务旨在评估由大型语言模型(LLM)驱动的AI辅导系统的教学能力,重点评估辅导系统在教育对话中针对学生错误进行补救时,其回复的质量。该任务包含五个赛道,旨在自动评估AI辅导系统在错误识别、精确定位错误、提供指导和反馈可操作性等关键维度上的表现,这些维度均基于学习科学原则,这些原则定义了良好且有效的辅导回复。此外,还有一个赛道侧重于检测辅导系统的身份。该任务吸引了来自全球50多个国际团队参与。提交的模型根据黄金标准的的人工标注进行评估。结果显示,虽然前景可期,但该领域仍有很大的改进空间:在三分类问题上,四个教学能力评估赛道的最佳宏平均F1分数在58.34(提供指导)和71.81(错误识别)之间,而辅导系统身份识别赛道的最佳F1分数在九分类任务中达到96.98。本文概述了共享任务的主要发现,讨论了各团队采用的方法,并分析了他们的表现。与此任务相关的所有资源均已公开发布,以支持该关键领域的未来研究。

🔬 方法详解

问题定义:本次共享任务旨在解决如何自动评估AI辅导系统教学能力的问题。现有方法难以全面、客观地评估AI辅导系统在教育对话中对学生错误的理解和指导能力,缺乏统一的评测标准和数据集。

核心思路:核心思路是通过构建多赛道评测任务,模拟真实的教育对话场景,从错误识别、错误定位、提供指导、反馈可操作性以及辅导系统身份识别等多个维度,全面评估AI辅导系统的教学能力。通过人工标注的黄金标准答案,为模型提供客观的评估依据。

技术框架:整体框架包含数据收集与标注、赛道设计、模型提交与评估三个主要阶段。数据收集阶段构建了包含学生错误和AI辅导系统回复的教育对话数据集。赛道设计阶段定义了五个不同的评测任务,分别关注AI辅导系统的不同教学能力。模型提交与评估阶段,各参赛团队提交模型预测结果,并与人工标注的黄金标准答案进行比较,计算各项指标。

关键创新:关键创新在于构建了一个综合性的AI辅导系统教学能力评测框架,涵盖了错误识别、错误定位、提供指导、反馈可操作性以及辅导系统身份识别等多个维度。该框架不仅提供了一个统一的评测标准,也为未来的研究提供了宝贵的数据集和基准。与现有方法相比,该框架更加全面、客观,能够更准确地评估AI辅导系统的教学能力。

关键设计:每个赛道都采用了特定的评估指标,例如,错误识别赛道采用宏平均F1分数,辅导系统身份识别赛道采用准确率。数据集包含多种类型的学生错误和AI辅导系统回复,涵盖了不同的学科和知识点。未知,论文未提供更详细的技术细节。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

本次共享任务吸引了50多个国际团队参与,结果显示,在三分类问题上,四个教学能力评估赛道的最佳宏平均F1分数在58.34(提供指导)和71.81(错误识别)之间,而辅导系统身份识别赛道的最佳F1分数在九分类任务中达到96.98。这些结果表明,虽然AI辅导系统在某些方面表现出色,但在教学能力方面仍有很大的提升空间。

🎯 应用场景

该研究成果可应用于开发更智能、更有效的AI辅导系统,提升在线教育的质量和个性化程度。通过客观评估AI辅导系统的教学能力,可以帮助教育机构选择合适的AI辅导工具,并为AI辅导系统的改进提供指导。此外,该研究也有助于推动教育领域的人工智能研究。

📄 摘要(原文)

This shared task has aimed to assess pedagogical abilities of AI tutors powered by large language models (LLMs), focusing on evaluating the quality of tutor responses aimed at student's mistake remediation within educational dialogues. The task consisted of five tracks designed to automatically evaluate the AI tutor's performance across key dimensions of mistake identification, precise location of the mistake, providing guidance, and feedback actionability, grounded in learning science principles that define good and effective tutor responses, as well as the track focusing on detection of the tutor identity. The task attracted over 50 international teams across all tracks. The submitted models were evaluated against gold-standard human annotations, and the results, while promising, show that there is still significant room for improvement in this domain: the best results for the four pedagogical ability assessment tracks range between macro F1 scores of 58.34 (for providing guidance) and 71.81 (for mistake identification) on three-class problems, with the best F1 score in the tutor identification track reaching 96.98 on a 9-class task. In this paper, we overview the main findings of the shared task, discuss the approaches taken by the teams, and analyze their performance. All resources associated with this task are made publicly available to support future research in this critical domain.