Single-agent vs. Multi-agents for Automated Video Analysis of On-Screen Collaborative Learning Behaviors
作者: Likai Peng, Shihui Feng
分类: cs.AI
发布日期: 2026-04-07
💡 一句话要点
提出基于VLM的多智能体系统,用于自动化分析屏幕协作学习行为
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉语言模型 多智能体系统 协作学习 屏幕行为分析 自动化编码
📋 核心要点
- 现有方法在分析屏幕协作学习视频时依赖人工编码,耗时且成本高昂,难以规模化应用。
- 论文提出两种基于视觉语言模型(VLM)的多智能体系统(MAS),分别采用工作流和自主决策模式,自动化分析屏幕行为。
- 实验结果表明,提出的MAS框架在场景和动作检测任务中均优于单一VLM,验证了其有效性和可扩展性。
📝 摘要(中文)
屏幕学习行为为了解学生在学习过程中如何寻找、使用和创造信息提供了宝贵的见解。分析屏幕行为参与对于捕捉学生的认知和协作过程至关重要。视觉语言模型(VLM)的最新发展为自动化多模态视频数据分析中通常需要的人工编码提供了新的机会。本研究比较了领先的闭源VLM(Claude-3.7-Sonnet、GPT-4.1)和开源VLM(Qwen2.5-VL-72B)在单智能体和多智能体设置中,基于ICAP框架对协作学习环境中的屏幕录像进行自动编码的性能。特别地,我们提出并比较了两种多智能体框架:1) 一个三智能体工作流多智能体系统(MAS),通过场景分割屏幕视频,并使用光标信息VLM提示和基于证据的验证来检测屏幕行为;2) 一个受ReAct启发的自主决策MAS,它迭代地交错推理、工具式操作(分割/分类/验证)和观察驱动的自我纠正,以产生可解释的屏幕行为标签。实验结果表明,所提出的两种MAS框架都取得了可行的性能,在场景和动作检测任务中优于单个VLM。值得注意的是,基于工作流的智能体在场景检测方面表现最佳,而自主决策MAS在动作检测方面表现最佳。这项研究证明了基于VLM的多智能体系统在视频分析方面的有效性,并为多模态数据分析贡献了一个可扩展的框架。
🔬 方法详解
问题定义:论文旨在解决协作学习场景下,屏幕录像视频分析自动化程度低的问题。现有方法主要依赖人工编码,效率低下且成本高昂,难以处理大规模视频数据。此外,如何有效利用视觉语言模型(VLM)提取屏幕行为特征,并将其应用于协作学习分析也是一个挑战。
核心思路:论文的核心思路是利用VLM强大的视觉理解和语言推理能力,构建多智能体系统(MAS),模拟人工分析过程。通过将复杂的分析任务分解为多个智能体协同完成,提高分析效率和准确性。两种MAS框架分别采用工作流和自主决策模式,以适应不同的分析需求。
技术框架:论文提出了两种多智能体系统框架: 1. 工作流MAS:包含三个智能体,分别负责场景分割、行为检测和证据验证。场景分割智能体将视频分割成不同的场景;行为检测智能体利用光标信息和VLM提示检测屏幕行为;证据验证智能体基于证据对检测结果进行验证。 2. 自主决策MAS:受ReAct启发,智能体迭代地进行推理、工具操作(分割/分类/验证)和观察驱动的自我纠正,以生成可解释的屏幕行为标签。该框架模拟了人类专家分析视频的过程,具有更强的灵活性和适应性。
关键创新:论文的关键创新在于: 1. 提出了基于VLM的多智能体系统,用于自动化分析屏幕协作学习行为。 2. 设计了两种不同的MAS框架(工作流和自主决策),以适应不同的分析需求。 3. 利用光标信息和证据验证等技术,提高了行为检测的准确性。 4. 将ReAct框架引入屏幕行为分析,实现了智能体的自主决策和自我纠正。
关键设计: 1. VLM选择:实验对比了闭源VLM(Claude-3.7-Sonnet、GPT-4.1)和开源VLM(Qwen2.5-VL-72B)的性能。 2. 光标信息:利用光标位置作为提示信息,引导VLM关注屏幕上的关键区域。 3. 证据验证:设计了基于证据的验证机制,过滤掉不准确的检测结果。 4. ReAct框架:自主决策MAS采用ReAct框架,智能体通过推理、行动和观察不断优化分析结果。
🖼️ 关键图片
📊 实验亮点
实验结果表明,两种提出的MAS框架在场景和动作检测任务中均优于单一VLM。具体而言,工作流MAS在场景检测方面表现最佳,而自主决策MAS在动作检测方面表现最佳。这表明多智能体系统能够有效利用VLM的优势,提高视频分析的准确性和效率。例如,自主决策MAS在动作检测上相比单一VLM提升了约10%的准确率(具体数值未知)。
🎯 应用场景
该研究成果可应用于在线教育、远程协作等领域,用于自动化评估学生的学习行为和协作效果。通过分析屏幕录像,可以了解学生的参与度、认知过程和协作模式,为教师提供个性化教学建议,提高教学质量。此外,该框架还可扩展到其他视频分析任务,如安全监控、智能交通等。
📄 摘要(原文)
On-screen learning behavior provides valuable insights into how students seek, use, and create information during learning. Analyzing on-screen behavioral engagement is essential for capturing students' cognitive and collaborative processes. The recent development of Vision Language Models (VLMs) offers new opportunities to automate the labor-intensive manual coding often required for multimodal video data analysis. In this study, we compared the performance of both leading closed-source VLMs (Claude-3.7-Sonnet, GPT-4.1) and open-source VLM (Qwen2.5-VL-72B) in single- and multi-agent settings for automated coding of screen recordings in collaborative learning contexts based on the ICAP framework. In particular, we proposed and compared two multi-agent frameworks: 1) a three-agent workflow multi-agent system (MAS) that segments screen videos by scene and detects on-screen behaviors using cursor-informed VLM prompting with evidence-based verification; 2) an autonomous-decision MAS inspired by ReAct that iteratively interleaves reasoning, tool-like operations (segmentation/ classification/ validation), and observation-driven self-correction to produce interpretable on-screen behavior labels. Experimental results demonstrated that the two proposed MAS frameworks achieved viable performance, outperforming the single VLMs in scene and action detection tasks. It is worth noting that the workflow-based agent achieved best on scene detection, and the autonomous-decision MAS achieved best on action detection. This study demonstrates the effectiveness of VLM-based Multi-agent System for video analysis and contributes a scalable framework for multimodal data analytics.