When AI Meets Early Childhood Education: Large Language Models as Assessment Teammates in Chinese Preschools

📄 arXiv: 2603.24389v1 📥 PDF

作者: Xingming Li, Runke Huang, Yanan Bao, Yuye Jin, Yuru Jiao, Qingyong Hu

分类: cs.CL, cs.AI, cs.CY

发布日期: 2026-03-25

备注: Accepted to AIED 2026, Project page: https://qingyonghu.github.io/Interaction2Eval/


💡 一句话要点

提出Interaction2Eval,利用大语言模型提升中国幼儿园师幼互动质量评估效率。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 师幼互动 早期教育 质量评估 自然语言处理

📋 核心要点

  1. 传统师幼互动评估依赖专家,成本高昂且难以大规模应用,限制了早期干预和质量提升。
  2. Interaction2Eval利用大语言模型,针对儿童语音识别和中文同音字消歧等问题进行优化,实现自动化评估。
  3. 实验表明,该方法在评估工作流程中实现了18倍的效率提升,有望实现幼儿园质量的常态化监控。

📝 摘要(中文)

高质量的师幼互动(TCI)是幼儿早期发展的基石,但传统的专家评估面临可扩展性挑战。在中国,超过25万所幼儿园服务着3600万儿童,人工观察的成本和时间限制使得持续质量监控变得不可行,评估沦为零星的审计,限制了及时的干预和改进跟踪。本文探讨了人工智能是否可以通过提取结构化的质量指标并验证其与人类专家判断的一致性,来作为可扩展的评估助手。主要贡献包括:(1)构建了首个大规模中文幼儿园自然师幼互动数据集TEPE-TCI-370h,包含370小时、105个教室的数据,并进行了ECQRS-EC和SSTEW标准化标注;(2)开发了基于大语言模型的专用框架Interaction2Eval,解决了特定领域的挑战,如儿童语音识别、普通话同音词消歧和基于规则的推理,一致性高达88%;(3)在43个教室的部署验证表明,评估工作流程的效率提高了18倍,突出了其将年度专家审计转变为每月AI辅助监控的潜力,并辅以有针对性的人工监督。这项工作不仅证明了可扩展的、人工智能增强的质量评估的技术可行性,而且为幼儿教育的新模式奠定了基础——在这种模式中,持续的、包容的、人工智能辅助的评估成为系统改进和公平增长的引擎。

🔬 方法详解

问题定义:论文旨在解决当前中国幼儿园师幼互动质量评估中,依赖人工专家评估导致的成本高、效率低、难以大规模推广的问题。现有方法无法实现对幼儿园教学质量的持续监控和及时反馈,阻碍了早期教育质量的整体提升。

核心思路:论文的核心思路是利用大语言模型(LLM)的强大能力,构建一个自动化的师幼互动质量评估框架。通过训练LLM理解和分析师幼互动数据,提取关键的质量指标,并与人工专家的评估结果进行对齐,从而实现高效、可扩展的质量评估。

技术框架:Interaction2Eval框架主要包含以下几个阶段:1) 数据采集与预处理:收集幼儿园师幼互动的音视频数据,进行语音识别,并将语音转录为文本。2) 领域知识增强:针对儿童语音识别和中文同音字消歧等问题,对LLM进行领域知识的增强训练。3) 质量指标提取:利用训练好的LLM,根据预定义的评估规则,从师幼互动文本中提取结构化的质量指标。4) 评估结果生成与验证:将提取的质量指标进行汇总分析,生成最终的评估报告,并与人工专家的评估结果进行对比验证。

关键创新:该论文的关键创新在于将大语言模型应用于幼儿园师幼互动质量评估,并针对该领域的特殊挑战(如儿童语音识别、中文同音字消歧)进行了专门优化。此外,构建了大规模的中文师幼互动数据集TEPE-TCI-370h,为该领域的研究提供了宝贵的数据资源。与传统方法相比,该方法能够显著提高评估效率,降低评估成本,并实现大规模的常态化监控。

关键设计:在领域知识增强方面,论文可能采用了微调(fine-tuning)或提示学习(prompt learning)等技术,利用领域相关的语料库和知识图谱,提升LLM在儿童语音识别和中文同音字消歧方面的性能。在质量指标提取方面,论文可能采用了基于规则的推理(rule-based reasoning)或基于模板的生成(template-based generation)等方法,将预定义的评估规则转化为LLM可以理解和执行的形式。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Interaction2Eval在43个教室的部署验证中,评估工作流程的效率提高了18倍,与人工专家评估结果的一致性高达88%。该结果表明,基于大语言模型的自动化评估方法具有很高的可行性和有效性,能够显著降低评估成本,提高评估效率,并保证评估质量。

🎯 应用场景

该研究成果可应用于大规模幼儿园教学质量监控,为教育部门提供客观、及时的评估数据,辅助制定更有效的教育政策。同时,可以为幼儿园教师提供个性化的反馈和改进建议,促进其专业发展。未来,该技术有望推广到其他教育阶段和领域,实现教育质量的全面提升。

📄 摘要(原文)

High-quality teacher-child interaction (TCI) is fundamental to early childhood development, yet traditional expert-based assessment faces a critical scalability challenge. In large systems like China's-serving 36 million children across 250,000+ kindergartens-the cost and time requirements of manual observation make continuous quality monitoring infeasible, relegating assessment to infrequent episodic audits that limit timely intervention and improvement tracking. In this paper, we investigate whether AI can serve as a scalable assessment teammate by extracting structured quality indicators and validating their alignment with human expert judgments. Our contributions include: (1) TEPE-TCI-370h (Tracing Effective Preschool Education), the first large-scale dataset of naturalistic teacher-child interactions in Chinese preschools (370 hours, 105 classrooms) with standardized ECQRS-EC and SSTEW annotations; (2) We develop Interaction2Eval, a specialized LLM-based framework addressing domain-specific challenges-child speech recognition, Mandarin homophone disambiguation, and rubric-based reasoning-achieving up to 88% agreement; (3) Deployment validation across 43 classrooms demonstrating an 18x efficiency gain in the assessment workflow, highlighting its potential for shifting from annual expert audits to monthly AI-assisted monitoring with targeted human oversight. This work not only demonstrates the technical feasibility of scalable, AI-augmented quality assessment but also lays the foundation for a new paradigm in early childhood education-one where continuous, inclusive, AI-assisted evaluation becomes the engine of systemic improvement and equitable growth.