Advancing Egocentric Video Question Answering with Multimodal Large Language Models

作者: Alkesh Patel, Vibhav Chitalia, Yinfei Yang

分类: cs.CV, cs.AI, cs.LG, cs.RO

发布日期: 2025-04-06

备注: 8 pages

💡 一句话要点

利用多模态大语言模型提升第一视角视频问答性能

🎯 匹配领域: 支柱六：视频提取与匹配 (Video Extraction) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 第一视角视频问答 多模态大语言模型 视频理解 时序推理 数据集改进

📋 核心要点

第一视角视频问答面临长时序推理、视角特殊性以及相机运动频繁等挑战，现有方法难以有效应对。
论文利用多模态大语言模型，通过微调等方式，提升模型在第一视角视频问答任务上的性能。
实验表明，微调后的Video-LLaVa-7B和Qwen2-VL-7B-Instruct在QaEgo4Dv2数据集上取得了显著的性能提升。

📝 摘要（中文）

本文针对第一视角视频问答（Egocentric Video QA）任务，该任务需要模型处理长时间跨度的时序推理、第一人称视角以及频繁的相机运动等特殊挑战。论文系统性地评估了商业和开源的多模态大语言模型（MLLMs）在QaEgo4Dv2数据集上的表现，该数据集是对QaEgo4D的改进版本。评估了四种流行的MLLMs（GPT-4o、Gemini-1.5-Pro、Video-LLaVa-7B和Qwen2-VL-7B-Instruct）在零样本和微调设置下的OpenQA和CloseQA性能。论文提出了QaEgo4Dv2数据集，以减少QaEgo4D中的标注噪声，从而实现更可靠的比较。结果表明，微调后的Video-LLaVa-7B和Qwen2-VL-7B-Instruct取得了新的state-of-the-art性能，超过了之前的基准，OpenQA的ROUGE/METEOR指标提升高达+2.6%，CloseQA的准确率提升高达+13%。论文还进行了全面的错误分析，表明模型在空间推理和细粒度对象识别方面存在困难，这些是未来改进的关键领域。

🔬 方法详解

问题定义：论文旨在解决第一视角视频问答（Egocentric Video QA）任务，该任务的难点在于需要模型具备长时间跨度的时序推理能力，处理第一人称视角带来的特殊性，以及应对频繁的相机运动。现有方法在处理这些挑战时表现不足，尤其是在空间推理和细粒度对象识别方面存在瓶颈。

核心思路：论文的核心思路是利用多模态大语言模型（MLLMs）的强大能力，通过在第一视角视频问答数据集上进行微调，使模型能够更好地理解和推理视频内容，从而提升问答性能。选择MLLMs是因为它们能够同时处理视觉和语言信息，并且具有强大的上下文理解能力。

技术框架：整体框架包括视频编码、问题编码和答案生成三个主要阶段。首先，使用视频编码器（例如，基于Transformer的模型）提取视频帧的视觉特征。然后，使用语言模型对问题进行编码，得到问题表示。接下来，将视频特征和问题表示输入到MLLM中，MLLM利用其强大的推理能力生成答案。在训练阶段，通过微调MLLM的参数，使其更好地适应第一视角视频问答任务。

关键创新：论文的关键创新在于系统性地评估了多种MLLMs在第一视角视频问答任务上的性能，并提出了QaEgo4Dv2数据集，该数据集通过减少标注噪声，实现了更可靠的性能比较。此外，论文还通过错误分析，指出了模型在空间推理和细粒度对象识别方面的不足，为未来的研究方向提供了指导。

关键设计：论文使用了四种流行的MLLMs（GPT-4o、Gemini-1.5-Pro、Video-LLaVa-7B和Qwen2-VL-7B-Instruct），并分别进行了零样本和微调实验。对于微调，使用了交叉熵损失函数来优化模型的参数。在数据预处理方面，对视频帧进行了采样和缩放，对问题和答案进行了tokenize。为了提高模型的泛化能力，使用了数据增强技术，例如随机裁剪和颜色抖动。

🖼️ 关键图片

📊 实验亮点

实验结果表明，微调后的Video-LLaVa-7B和Qwen2-VL-7B-Instruct在QaEgo4Dv2数据集上取得了显著的性能提升，OpenQA的ROUGE/METEOR指标提升高达+2.6%，CloseQA的准确率提升高达+13%。这些结果表明，MLLMs在第一视角视频问答任务中具有巨大的潜力。

🎯 应用场景

该研究成果可应用于智能助手、可穿戴设备、机器人导航等领域。例如，在智能家居场景中，智能助手可以通过理解用户的第一视角视频，回答用户关于周围环境的问题。在机器人导航领域，机器人可以利用该技术理解人类的指令，并根据第一视角视频进行导航。未来，该技术有望在医疗、教育等领域发挥更大的作用。

📄 摘要（原文）

Egocentric Video Question Answering (QA) requires models to handle long-horizon temporal reasoning, first-person perspectives, and specialized challenges like frequent camera movement. This paper systematically evaluates both proprietary and open-source Multimodal Large Language Models (MLLMs) on QaEgo4Dv2 - a refined dataset of egocentric videos derived from QaEgo4D. Four popular MLLMs (GPT-4o, Gemini-1.5-Pro, Video-LLaVa-7B and Qwen2-VL-7B-Instruct) are assessed using zero-shot and fine-tuned approaches for both OpenQA and CloseQA settings. We introduce QaEgo4Dv2 to mitigate annotation noise in QaEgo4D, enabling more reliable comparison. Our results show that fine-tuned Video-LLaVa-7B and Qwen2-VL-7B-Instruct achieve new state-of-the-art performance, surpassing previous benchmarks by up to +2.6% ROUGE/METEOR (for OpenQA) and +13% accuracy (for CloseQA). We also present a thorough error analysis, indicating the model's difficulty in spatial reasoning and fine-grained object recognition - key areas for future improvement.

Advancing Egocentric Video Question Answering with Multimodal Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理