Multimodal Assessment of Classroom Discourse Quality: A Text-Centered Attention-Based Multi-Task Learning Approach
作者: Ruikun Hou, Babette Bühler, Tim Fütterer, Efe Bozkir, Peter Gerjets, Ulrich Trautwein, Enkelejda Kasneci
分类: cs.CY, cs.AI, cs.CL, cs.LG
发布日期: 2025-05-12
备注: The 18th International Conference on Educational Data Mining (EDM 2025)
💡 一句话要点
提出一种文本中心的多模态注意力多任务学习方法,用于评估课堂话语质量。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 课堂话语质量评估 多模态融合 注意力机制 多任务学习 序数分类
📋 核心要点
- 现有课堂话语质量评估依赖人工编码,耗时且成本高昂,缺乏对完整课堂片段的有效评估。
- 提出文本中心的多模态融合架构,利用注意力机制和多任务学习,从文本、音频、视频中提取信息。
- 实验结果表明,文本模态起主导作用,结合声学特征后,模型性能与人类评分者间信度相当。
📝 摘要(中文)
课堂话语是教学发生的重要载体。评估话语实践的不同特征并将其与学生的学习成就联系起来,有助于理解教学质量。传统评估依赖于耗时且昂贵的手动编码课堂观察协议。尽管许多研究利用人工智能技术在话语层面分析课堂话语,但对整个课程片段中话语实践的评估研究仍然有限。为了解决这一差距,本研究提出了一种新颖的文本中心多模态融合架构,以评估基于全球教学洞察(GTI)观察协议的三个话语组成部分的质量:话语性质、提问和解释。首先,我们采用注意力机制来捕获来自文本、音频和视频流的模态间和模态内交互。其次,采用多任务学习方法来联合预测三个组成部分的质量分数。第三,我们将任务定义为序数分类问题,以考虑评级级别的顺序。通过在包含92个录像数学课程的GTI德国数据集上的消融研究,证明了这些设计元素的有效性。我们的结果突出了文本模态在完成此任务中的主导作用。集成声学特征增强了模型与人类评级的一致性,实现了0.384的整体二次加权Kappa分数,与人类评分者间信度(0.326)相当。我们的研究为未来开发自动化话语质量评估奠定了基础,通过及时反馈多维度话语实践来支持教师专业发展。
🔬 方法详解
问题定义:论文旨在解决课堂话语质量评估问题,现有方法主要依赖人工编码,效率低且成本高。此外,现有AI方法主要集中在话语层面,缺乏对整个课堂片段的综合评估,难以捕捉话语实践的整体特征。
核心思路:论文的核心思路是利用多模态信息(文本、音频、视频)互补的特性,通过融合不同模态的信息来更准确地评估课堂话语质量。同时,采用文本中心的方法,强调文本模态在话语理解中的主导作用,并利用注意力机制捕捉模态间和模态内的交互关系。
技术框架:整体架构包含三个主要阶段:1) 特征提取:从文本、音频和视频流中提取特征。文本特征通过预训练语言模型获得,音频特征通过声学模型提取,视频特征通过视觉模型提取。2) 多模态融合:利用注意力机制融合不同模态的特征,捕捉模态间和模态内的交互关系。3) 多任务学习:采用多任务学习框架,联合预测话语性质、提问和解释三个组成部分的质量分数。
关键创新:论文的关键创新在于:1) 提出了一种文本中心的多模态融合架构,强调文本模态在话语理解中的主导作用。2) 采用注意力机制捕捉模态间和模态内的交互关系,提升了模型对复杂话语场景的理解能力。3) 将话语质量评估任务建模为序数分类问题,更符合实际评级数据的特点。
关键设计:在多模态融合阶段,使用了自注意力机制和跨模态注意力机制。自注意力机制用于捕捉每个模态内部的特征依赖关系,跨模态注意力机制用于捕捉不同模态之间的交互关系。损失函数方面,采用了序数分类损失函数,例如Margin Ranking Loss或Cross-Entropy Loss with label smoothing,以更好地处理评级数据的顺序信息。具体网络结构未知。
🖼️ 关键图片
📊 实验亮点
实验结果表明,文本模态在课堂话语质量评估中起主导作用。结合声学特征后,模型性能得到进一步提升,最终在GTI德国数据集上取得了0.384的二次加权Kappa分数,与人类评分者间信度(0.326)相当。消融实验验证了注意力机制和多任务学习的有效性。
🎯 应用场景
该研究成果可应用于教师专业发展领域,为教师提供及时、多维度的课堂话语实践反馈,帮助教师改进教学方法,提升教学质量。此外,该技术还可用于大规模课堂教学评估,为教育政策制定提供数据支持。未来,该技术有望扩展到其他教育场景,例如在线教育、个性化学习等。
📄 摘要(原文)
Classroom discourse is an essential vehicle through which teaching and learning take place. Assessing different characteristics of discursive practices and linking them to student learning achievement enhances the understanding of teaching quality. Traditional assessments rely on manual coding of classroom observation protocols, which is time-consuming and costly. Despite many studies utilizing AI techniques to analyze classroom discourse at the utterance level, investigations into the evaluation of discursive practices throughout an entire lesson segment remain limited. To address this gap, our study proposes a novel text-centered multimodal fusion architecture to assess the quality of three discourse components grounded in the Global Teaching InSights (GTI) observation protocol: Nature of Discourse, Questioning, and Explanations. First, we employ attention mechanisms to capture inter- and intra-modal interactions from transcript, audio, and video streams. Second, a multi-task learning approach is adopted to jointly predict the quality scores of the three components. Third, we formulate the task as an ordinal classification problem to account for rating level order. The effectiveness of these designed elements is demonstrated through an ablation study on the GTI Germany dataset containing 92 videotaped math lessons. Our results highlight the dominant role of text modality in approaching this task. Integrating acoustic features enhances the model's consistency with human ratings, achieving an overall Quadratic Weighted Kappa score of 0.384, comparable to human inter-rater reliability (0.326). Our study lays the groundwork for the future development of automated discourse quality assessment to support teacher professional development through timely feedback on multidimensional discourse practices.