EgoCross: Benchmarking Multimodal Large Language Models for Cross-Domain Egocentric Video Question Answering

📄 arXiv: 2508.10729v1 📥 PDF

作者: Yanjun Li, Yuqian Fu, Tianwen Qian, Qi'ao Xu, Silong Dai, Danda Pani Paudel, Luc Van Gool, Xiaoling Wang

分类: cs.CV, cs.AI

发布日期: 2025-08-14

🔗 代码/项目: GITHUB


💡 一句话要点

提出EgoCross以解决跨领域自我中心视频问答问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱六:视频提取与匹配 (Video Extraction) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 自我中心视频问答 跨领域泛化 多模态大型语言模型 视频理解 问答系统 数据集构建 评估基准

📋 核心要点

  1. 现有的自我中心视频问答研究主要集中在日常活动上,缺乏对跨领域泛化能力的评估。
  2. EgoCross基准通过涵盖多样化的领域,提供了一个全面的评估框架,支持开放式和封闭式问答格式。
  3. 实验结果显示,现有模型在跨领域任务中表现不佳,强调了该基准的重要性和必要性。

📝 摘要(中文)

近年来,多模态大型语言模型(MLLMs)的进展显著推动了自我中心视频问答(EgocentricQA)的前沿。然而,现有基准和研究主要限于日常活动,如烹饪和清洁。实际应用中不可避免地会遇到领域转移,目标领域在视觉风格和语义内容上存在显著差异。为此,我们提出了EgoCross,这是一个综合基准,旨在评估MLLMs在EgocentricQA中的跨领域泛化能力。EgoCross涵盖手术、工业、极限运动和动物视角等四个多样且具有挑战性的领域,代表了现实且高影响力的应用场景。该基准包含约1000个问答对,跨越798个视频片段,涵盖预测、识别、定位和计数四个关键问答任务。每个问答对提供开放式问答和封闭式问答格式,以支持细粒度评估。大量实验表明,大多数现有的MLLMs,无论是通用型还是自我中心专用型,在日常生活之外的领域泛化能力较弱,突显了当前模型的局限性。

🔬 方法详解

问题定义:论文旨在解决现有自我中心视频问答模型在跨领域泛化能力不足的问题。现有方法主要集中于日常活动,缺乏对不同领域的适应性评估。

核心思路:通过引入EgoCross基准,论文提供了一个多样化的评估框架,涵盖手术、工业、极限运动和动物视角等领域,以测试和提升模型的泛化能力。

技术框架:EgoCross基准包含约1000个问答对,跨越798个视频片段,设计了四个关键问答任务:预测、识别、定位和计数。每个任务都提供开放式和封闭式问答格式,以支持细粒度评估。

关键创新:EgoCross的创新在于其跨领域的设计,填补了现有研究在多样化场景下的空白,特别是在高影响力的应用场景中。

关键设计:在数据集构建中,确保了问答对的多样性和挑战性,采用了多种评估指标来全面评估模型性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,大多数现有的多模态大型语言模型在EgoCross基准上的表现不佳,尤其是在非日常活动领域,泛化能力明显不足。这一发现强调了EgoCross作为评估工具的重要性,并为未来的模型改进提供了方向。

🎯 应用场景

EgoCross的研究成果具有广泛的应用潜力,尤其在医疗、工业监控、极限运动分析和动物行为研究等领域。通过提升模型的跨领域泛化能力,可以更好地支持实际场景中的视频理解和智能问答系统,推动相关技术的进步和应用。

📄 摘要(原文)

Recent advances in Multimodal Large Language Models (MLLMs) have significantly pushed the frontier of egocentric video question answering (EgocentricQA). However, existing benchmarks and studies are mainly limited to common daily activities such as cooking and cleaning. In contrast, real-world deployment inevitably encounters domain shifts, where target domains differ substantially in both visual style and semantic content. To bridge this gap, we introduce \textbf{EgoCross}, a comprehensive benchmark designed to evaluate the cross-domain generalization of MLLMs in EgocentricQA. EgoCross covers four diverse and challenging domains, including surgery, industry, extreme sports, and animal perspective, representing realistic and high-impact application scenarios. It comprises approximately 1,000 QA pairs across 798 video clips, spanning four key QA tasks: prediction, recognition, localization, and counting. Each QA pair provides both OpenQA and CloseQA formats to support fine-grained evaluation. Extensive experiments show that most existing MLLMs, whether general-purpose or egocentric-specialized, struggle to generalize to domains beyond daily life, highlighting the limitations of current models. Furthermore, we conduct several pilot studies, \eg, fine-tuning and reinforcement learning, to explore potential improvements. We hope EgoCross and our accompanying analysis will serve as a foundation for advancing domain-adaptive, robust egocentric video understanding. Data and codes will be released at: \href{https://github.com/MyUniverse0726/EgoCross}{https://github.com/MyUniverse0726/EgoCross.}