Gaze to Insight: A Scalable AI Approach for Detecting Gaze Behaviours in Face-to-Face Collaborative Learning

📄 arXiv: 2604.03317 📥 PDF

作者: Junyuan Liang, Qi Zhou, Sahan Bulathwela, Mutlu Cukurova

分类: cs.CV

发布日期: 2026-04-07


💡 一句话要点

提出一种可扩展的AI方法,无需人工标注即可检测面对面协作学习中的注视行为。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 注视行为检测 协作学习 预训练模型 YOLO Gaze-LLE 零样本学习 人工智能教育

📋 核心要点

  1. 现有方法依赖大量标注数据,人工标注成本高昂,且模型在不同教育场景下的泛化能力不足。
  2. 利用预训练模型和基础模型,无需人工标注即可自动检测协作学习中的注视行为,提升模型泛化性。
  3. 实验表明,该方法在检测学生注视行为时F1得分为0.829,且在复杂场景下表现出更强的鲁棒性。

📝 摘要(中文)

本研究提出了一种可扩展的人工智能方法,利用预训练模型和基础模型自动检测面对面协作学习环境中的注视行为,无需人工标注数据。该方法使用预训练的YOLO11进行人员跟踪,使用具有文本提示功能的YOLOE-26进行教育相关对象检测,并使用Gaze-LLE模型进行注视目标预测。结果表明,该方法在检测学生视频数据中的注视行为时,F1得分为0.829,在笔记本电脑注视和同伴注视方面表现出色,但在其他注视目标方面表现较弱。与其他监督机器学习方法相比,该方法在复杂环境中表现出更优越和更稳定的性能,突出了其更好的跨配置鲁棒性。讨论了该方法在支持学生在真实环境中进行协作学习的意义。

🔬 方法详解

问题定义:论文旨在解决在面对面协作学习场景中,自动、准确地检测学生注视行为的问题。现有方法通常依赖于大量的、人工标注的训练数据,这使得模型训练成本高昂,且难以泛化到不同的协作学习环境和配置中。此外,不同场景下的光照、遮挡等因素也会影响模型的性能。

核心思路:论文的核心思路是利用预训练模型和基础模型,例如YOLO和Gaze-LLE,来减少对人工标注数据的依赖,并提高模型的泛化能力。通过迁移学习和零样本学习的思想,将预训练模型在通用数据集上学到的知识迁移到协作学习场景中的注视行为检测任务中。

技术框架:该方法的技术框架主要包含三个模块:1) 人员跟踪模块,使用预训练的YOLO11模型检测和跟踪学生个体;2) 对象检测模块,使用具有文本提示功能的YOLOE-26模型检测教育相关的对象,例如笔记本电脑、书籍等;3) 注视目标预测模块,使用Gaze-LLE模型预测学生的注视目标。这三个模块协同工作,最终实现对学生注视行为的自动检测。

关键创新:该方法最重要的技术创新点在于,它无需人工标注数据即可实现对学生注视行为的自动检测。这得益于预训练模型和基础模型的强大泛化能力,以及文本提示功能的引入,使得模型能够根据场景描述自适应地检测相关对象。与传统的监督学习方法相比,该方法大大降低了数据标注成本,并提高了模型的跨配置鲁棒性。

关键设计:在对象检测模块中,YOLOE-26模型利用文本提示功能,根据协作学习场景的描述(例如“学生正在使用笔记本电脑”),自适应地调整检测策略,从而提高检测精度。Gaze-LLE模型则利用学生的面部特征和头部姿态信息,预测学生的注视目标。具体的参数设置和损失函数等技术细节在论文中未详细描述,属于未知信息。

📊 实验亮点

实验结果表明,该方法在检测学生注视行为时,F1得分为0.829,尤其在笔记本电脑注视和同伴注视方面表现出色。与传统的监督学习方法相比,该方法在复杂环境中表现出更优越和更稳定的性能,验证了其更好的跨配置鲁棒性。这表明该方法在实际应用中具有很强的潜力。

🎯 应用场景

该研究成果可应用于智能教育系统,为教师提供学生协作学习行为的实时反馈,辅助教师进行个性化教学干预。此外,该技术还可用于评估协作学习的效果,优化教学设计,并为学生提供个性化的学习建议,提升学习效率和质量。未来,该技术有望推广到其他需要分析人类注视行为的领域,如人机交互、智能监控等。

📄 摘要(原文)

Previous studies have illustrated the potential of analysing gaze behaviours in collaborative learning to provide educationally meaningful information for students to reflect on their learning. Over the past decades, machine learning approaches have been developed to automatically detect gaze behaviours from video data. Yet, since these approaches often require large amounts of labelled data for training, human annotation remains necessary. Additionally, researchers have questioned the cross-configuration robustness of machine learning models developed, as training datasets often fail to encompass the full range of situations encountered in educational contexts. To address these challenges, this study proposes a scalable artificial intelligence approach that leverages pretrained and foundation models to automatically detect gaze behaviours in face-to-face collaborative learning contexts without requiring human-annotated data. The approach utilises pretrained YOLO11 for person tracking, YOLOE-26 with text-prompt capability for education-related object detection, and the Gaze-LLE model for gaze target prediction. The results indicate that the proposed approach achieves an F1-score of 0.829 in detecting students' gaze behaviours from video data, with strong performance for laptop-directed gaze and peer-directed gaze, yet weaker performance for other gaze targets. Furthermore, when compared to other supervised machine learning approaches, the proposed method demonstrates superior and more stable performance in complex contexts, highlighting its better cross-configuration robustness. The implications of this approach for supporting students' collaborative learning in real-world environments are also discussed.