Advancing Egocentric Video Question Answering with Multimodal Large Language Models

📄 arXiv: 2504.04550v1 📥 PDF

作者: Alkesh Patel, Vibhav Chitalia, Yinfei Yang

分类: cs.CV, cs.AI, cs.LG, cs.RO

发布日期: 2025-04-06

备注: 8 pages


💡 一句话要点

利用多模态大语言模型提升第一视角视频问答性能

🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 第一视角视频问答 多模态大语言模型 视频理解 时序推理 数据集改进

📋 核心要点

  1. 第一视角视频问答面临长时序推理、视角特殊性以及相机运动频繁等挑战,现有方法难以有效应对。
  2. 论文利用多模态大语言模型,通过微调等方式,提升模型在第一视角视频问答任务上的性能。
  3. 实验表明,微调后的Video-LLaVa-7B和Qwen2-VL-7B-Instruct在QaEgo4Dv2数据集上取得了显著的性能提升。

📝 摘要(中文)

本文针对第一视角视频问答(Egocentric Video QA)任务,该任务需要模型处理长时间跨度的时序推理、第一人称视角以及频繁的相机运动等特殊挑战。论文系统性地评估了商业和开源的多模态大语言模型(MLLMs)在QaEgo4Dv2数据集上的表现,该数据集是对QaEgo4D的改进版本。评估了四种流行的MLLMs(GPT-4o、Gemini-1.5-Pro、Video-LLaVa-7B和Qwen2-VL-7B-Instruct)在零样本和微调设置下的OpenQA和CloseQA性能。论文提出了QaEgo4Dv2数据集,以减少QaEgo4D中的标注噪声,从而实现更可靠的比较。结果表明,微调后的Video-LLaVa-7B和Qwen2-VL-7B-Instruct取得了新的state-of-the-art性能,超过了之前的基准,OpenQA的ROUGE/METEOR指标提升高达+2.6%,CloseQA的准确率提升高达+13%。论文还进行了全面的错误分析,表明模型在空间推理和细粒度对象识别方面存在困难,这些是未来改进的关键领域。

🔬 方法详解

问题定义:论文旨在解决第一视角视频问答(Egocentric Video QA)任务,该任务的难点在于需要模型具备长时间跨度的时序推理能力,处理第一人称视角带来的特殊性,以及应对频繁的相机运动。现有方法在处理这些挑战时表现不足,尤其是在空间推理和细粒度对象识别方面存在瓶颈。

核心思路:论文的核心思路是利用多模态大语言模型(MLLMs)的强大能力,通过在第一视角视频问答数据集上进行微调,使模型能够更好地理解和推理视频内容,从而提升问答性能。选择MLLMs是因为它们能够同时处理视觉和语言信息,并且具有强大的上下文理解能力。

技术框架:整体框架包括视频编码、问题编码和答案生成三个主要阶段。首先,使用视频编码器(例如,基于Transformer的模型)提取视频帧的视觉特征。然后,使用语言模型对问题进行编码,得到问题表示。接下来,将视频特征和问题表示输入到MLLM中,MLLM利用其强大的推理能力生成答案。在训练阶段,通过微调MLLM的参数,使其更好地适应第一视角视频问答任务。

关键创新:论文的关键创新在于系统性地评估了多种MLLMs在第一视角视频问答任务上的性能,并提出了QaEgo4Dv2数据集,该数据集通过减少标注噪声,实现了更可靠的性能比较。此外,论文还通过错误分析,指出了模型在空间推理和细粒度对象识别方面的不足,为未来的研究方向提供了指导。

关键设计:论文使用了四种流行的MLLMs(GPT-4o、Gemini-1.5-Pro、Video-LLaVa-7B和Qwen2-VL-7B-Instruct),并分别进行了零样本和微调实验。对于微调,使用了交叉熵损失函数来优化模型的参数。在数据预处理方面,对视频帧进行了采样和缩放,对问题和答案进行了tokenize。为了提高模型的泛化能力,使用了数据增强技术,例如随机裁剪和颜色抖动。

🖼️ 关键图片

fig_0

📊 实验亮点

实验结果表明,微调后的Video-LLaVa-7B和Qwen2-VL-7B-Instruct在QaEgo4Dv2数据集上取得了显著的性能提升,OpenQA的ROUGE/METEOR指标提升高达+2.6%,CloseQA的准确率提升高达+13%。这些结果表明,MLLMs在第一视角视频问答任务中具有巨大的潜力。

🎯 应用场景

该研究成果可应用于智能助手、可穿戴设备、机器人导航等领域。例如,在智能家居场景中,智能助手可以通过理解用户的第一视角视频,回答用户关于周围环境的问题。在机器人导航领域,机器人可以利用该技术理解人类的指令,并根据第一视角视频进行导航。未来,该技术有望在医疗、教育等领域发挥更大的作用。

📄 摘要(原文)

Egocentric Video Question Answering (QA) requires models to handle long-horizon temporal reasoning, first-person perspectives, and specialized challenges like frequent camera movement. This paper systematically evaluates both proprietary and open-source Multimodal Large Language Models (MLLMs) on QaEgo4Dv2 - a refined dataset of egocentric videos derived from QaEgo4D. Four popular MLLMs (GPT-4o, Gemini-1.5-Pro, Video-LLaVa-7B and Qwen2-VL-7B-Instruct) are assessed using zero-shot and fine-tuned approaches for both OpenQA and CloseQA settings. We introduce QaEgo4Dv2 to mitigate annotation noise in QaEgo4D, enabling more reliable comparison. Our results show that fine-tuned Video-LLaVa-7B and Qwen2-VL-7B-Instruct achieve new state-of-the-art performance, surpassing previous benchmarks by up to +2.6% ROUGE/METEOR (for OpenQA) and +13% accuracy (for CloseQA). We also present a thorough error analysis, indicating the model's difficulty in spatial reasoning and fine-grained object recognition - key areas for future improvement.