VideoWebArena: Evaluating Long Context Multimodal Agents with Video Understanding Web Tasks
作者: Lawrence Jang, Yinheng Li, Dan Zhao, Charles Ding, Justin Lin, Paul Pu Liang, Rogerio Bonatti, Kazuhito Koishida
分类: cs.CV, cs.AI
发布日期: 2024-10-24 (更新: 2025-02-15)
💡 一句话要点
提出VideoWebArena,用于评估长上下文多模态Agent的视频理解Web任务能力。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 长视频理解 多模态Agent Web任务 技能保持 事实保持 视频教程 长上下文建模 Agent基准
📋 核心要点
- 现有Agent基准忽略了长上下文视频理解,主要集中在文本或静态图像输入,无法有效评估Agent在视频场景下的能力。
- VideoWebArena通过构建基于视频教程的Web Agent任务,评估Agent的技能保持和事实保持能力,弥补了现有基准的不足。
- 实验表明,现有模型在VideoWebArena上的表现远低于人类水平,尤其是在技能保持方面,使用教程甚至会降低性能。
📝 摘要(中文)
本文提出了VideoWebArena (VideoWA),一个用于评估长上下文多模态Agent在视频理解方面的能力的基准。VideoWA包含2021个基于人工制作的视频教程的Web Agent任务,总时长近4小时。该基准定义了长上下文视频Agent任务的分类,主要关注技能保持和事实保持两个方面。技能保持任务评估Agent是否能利用给定的人工演示有效地完成任务,而事实保持任务评估Agent是否能从视频中检索与指令相关的信息以完成任务。实验结果表明,最佳模型在事实保持任务上的成功率为13.3%,在事实保持问答对上的成功率为45.8%,远低于人类的73.9%和79.3%。在技能保持任务中,长上下文模型在使用教程时的表现比不使用教程时更差,在WebArena任务中性能下降5%,在VisualWebArena任务中性能下降10.3%。这项工作强调了改进长上下文多模态Agent能力的需求,并为未来长上下文视频Agent的开发提供了一个测试平台。
🔬 方法详解
问题定义:现有Agent基准在评估Agent的Web任务能力时,主要依赖文本和静态图像输入,缺乏对长上下文视频理解的评估。这使得Agent难以处理需要从视频中学习技能或提取信息的任务。现有方法无法有效利用视频中的信息,导致在视频相关的Web任务中表现不佳。
核心思路:VideoWebArena的核心思路是构建一个基于真实视频教程的Web Agent任务环境,通过评估Agent在技能保持和事实保持方面的能力,来衡量其长上下文视频理解能力。通过提供视频教程,Agent需要学习视频中的操作步骤或提取关键信息,才能成功完成任务。
技术框架:VideoWebArena包含以下主要组成部分:1) 基于人工制作的视频教程,涵盖各种Web任务;2) Web Agent任务,分为技能保持和事实保持两类;3) 评估指标,用于衡量Agent在不同任务上的表现。整体流程是:Agent接收视频教程和任务描述,然后与Web环境交互,最终完成任务并接受评估。
关键创新:VideoWebArena的关键创新在于:1) 首次提出了一个专门用于评估长上下文多模态Agent视频理解能力的Web任务基准;2) 定义了技能保持和事实保持两种类型的任务,更全面地评估Agent的能力;3) 使用真实视频教程作为输入,更贴近实际应用场景。
关键设计:VideoWebArena的关键设计包括:1) 视频教程的选择,确保涵盖各种Web任务和操作步骤;2) 任务的难度设计,既要具有挑战性,又要保证Agent在一定程度上能够完成;3) 评估指标的选择,能够准确反映Agent在技能保持和事实保持方面的能力。具体的参数设置和网络结构取决于所使用的Agent模型,论文中没有详细描述。
🖼️ 关键图片
📊 实验亮点
实验结果表明,现有最佳模型在VideoWebArena上的表现远低于人类水平。在事实保持任务中,最佳模型的成功率为13.3%,在事实保持问答对上的成功率为45.8%,而人类的成功率分别为73.9%和79.3%。更令人惊讶的是,在技能保持任务中,长上下文模型在使用教程时的表现甚至比不使用教程时更差,性能下降了5%-10.3%。
🎯 应用场景
VideoWebArena的研究成果可应用于开发更智能的视频助手,例如自动完成Web任务、提供个性化教程、辅助用户进行在线学习等。该基准的提出将推动长上下文多模态Agent在视频理解领域的应用,并促进相关技术的发展,例如视频内容理解、视频问答、视频生成等。
📄 摘要(原文)
Videos are often used to learn or extract the necessary information to complete tasks in ways different than what text and static imagery alone can provide. However, many existing agent benchmarks neglect long-context video understanding, instead focusing on text or static image inputs. To bridge this gap, we introduce VideoWebArena (VideoWA), a benchmark for evaluating the capabilities of long-context multimodal agents for video understanding. VideoWA consists of 2,021 web agent tasks based on manually crafted video tutorials, which total almost four hours of content. For our benchmark, we define a taxonomy of long-context video-based agent tasks with two main areas of focus: skill retention and factual retention. While skill retention tasks evaluate whether an agent can use a given human demonstration to complete a task efficiently, the factual retention task evaluates whether an agent can retrieve instruction-relevant information from a video to complete a task. We find that the best model achieves 13.3% success on factual retention tasks and 45.8% on factual retention QA pairs, far below human performance at 73.9% and 79.3%, respectively. On skill retention tasks, long-context models perform worse with tutorials than without, exhibiting a 5% performance decrease in WebArena tasks and a 10.3% decrease in VisualWebArena tasks. Our work highlights the need to improve the agentic abilities of long-context multimodal models and provides a testbed for future development with long-context video agents.