Scalable and Explainable Learner-Video Interaction Prediction using Multimodal Large Language Models

📄 arXiv: 2604.04482 📥 PDF

作者: Dominik Glandorf, Fares Fawzi, Tanja Käser

分类: cs.AI

发布日期: 2026-04-07


💡 一句话要点

提出基于多模态大语言模型的可扩展、可解释学习者-视频交互预测方法

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 大语言模型 教育视频 交互预测 认知负荷 可解释性 在线教育

📋 核心要点

  1. 现有方法缺乏可扩展性和可解释性,难以在部署前预测学习者与教育视频的交互行为。
  2. 利用多模态大语言模型提取视频片段特征,训练分类器预测交互峰值,并结合教学设计理论进行解释。
  3. 实验表明该方法能可靠预测交互峰值,泛化性强,且编码了可解释的教学概念。

📝 摘要(中文)

本文提出了一种可扩展、可解释的预测模型,用于预测学习者在教育视频中的观看、暂停、跳过和倒退行为,以此作为认知负荷的代理指标。该方法利用多模态大语言模型(MLLM)计算短视频片段的嵌入向量,并训练神经分类器来识别时间粒度上的交互峰值。借鉴多媒体学习理论中关于最佳认知负荷的教学设计,使用GPT-5对视频片段的特征进行编码,并将其作为通过概念激活向量解释模型预测的基础。在来自66个在线课程的7700万个视频控制事件上评估了该流程。结果表明,基于MLLM嵌入的分类器能够可靠地预测交互峰值,推广到未见过的学术领域,并编码可解释的、与理论相关的教学概念。该研究展示了对教育视频设计进行经济高效、可解释的预筛选的可行性,并为大规模实证检验多媒体学习理论开辟了新的机会。

🔬 方法详解

问题定义:论文旨在解决教育视频领域中,如何提前预测学习者与视频的交互行为(如暂停、跳过等)的问题。现有方法通常缺乏可扩展性,难以处理大规模视频数据,并且缺乏可解释性,难以理解模型预测的原因,从而限制了教学设计者优化视频内容。

核心思路:论文的核心思路是利用多模态大语言模型(MLLM)提取视频内容的多模态特征,并将其用于预测学习者的交互行为。通过将视频内容转化为向量表示,并结合教学设计理论,可以实现对模型预测结果的解释,从而为教学设计提供指导。

技术框架:整体框架包含以下几个主要阶段:1) 视频片段分割:将视频分割成短小的片段。2) 多模态特征提取:使用MLLM提取视频片段的视觉和文本特征,生成嵌入向量。3) 交互峰值预测:训练神经分类器,基于嵌入向量预测学习者的交互峰值。4) 模型解释:使用GPT-5编码视频片段的教学设计特征,并利用概念激活向量解释模型预测结果。

关键创新:该方法最重要的创新点在于将多模态大语言模型应用于学习者-视频交互预测,并结合教学设计理论进行模型解释。这使得模型不仅能够预测学习者的行为,还能够提供可解释的预测结果,从而为教学设计提供有价值的反馈。此外,该方法具有良好的可扩展性,能够处理大规模视频数据。

关键设计:论文中使用了预训练的多模态大语言模型(具体模型未知)来提取视频片段的特征。神经分类器采用常见的神经网络结构(具体结构未知)。损失函数和优化器选择未明确说明,但推测可能使用了交叉熵损失函数和Adam优化器。GPT-5用于编码视频片段的教学设计特征,具体编码方式和特征维度未知。概念激活向量用于解释模型预测结果,具体实现细节未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,基于MLLM嵌入的分类器能够可靠地预测交互峰值,并且具有良好的泛化能力,可以推广到未见过的学术领域。此外,模型能够编码可解释的、与理论相关的教学概念,为教学设计提供了有价值的反馈。具体的性能数据和提升幅度未在摘要中明确给出。

🎯 应用场景

该研究成果可应用于在线教育平台,帮助教师和教学设计者在视频发布前评估其教学效果,并根据预测的学习者交互行为优化视频内容,提升学习体验。此外,该方法还可用于大规模实证研究多媒体学习理论,为教育领域的理论发展提供数据支持。

📄 摘要(原文)

Learners' use of video controls in educational videos provides implicit signals of cognitive processing and instructional design quality, yet the lack of scalable and explainable predictive models limits instructors' ability to anticipate such behavior before deployment. We propose a scalable, interpretable pipeline for predicting population-level watching, pausing, skipping, and rewinding behavior as proxies for cognitive load from video content alone. Our approach leverages multimodal large language models (MLLMs) to compute embeddings of short video segments and trains a neural classifier to identify temporally fine-grained interaction peaks. Drawing from multimedia learning theory on instructional design for optimal cognitive load, we code features of the video segments using GPT-5 and employ them as a basis for interpreting model predictions via concept activation vectors. We evaluate our pipeline on 77 million video control events from 66 online courses. Our findings demonstrate that classifiers based on MLLM embeddings reliably predict interaction peaks, generalize to unseen academic fields, and encode interpretable, theory-relevant instructional concepts. Overall, our results show the feasibility of cost-efficient, interpretable pre-screening of educational video design and open new opportunities to empirically examine multimedia learning theory at scale.