Narrative Aligned Long Form Video Question Answering

📄 arXiv: 2603.19481v1 📥 PDF

作者: Rahul Jain, Keval Doshi, Burak Uzkent, Garin Kessler

分类: cs.CV

发布日期: 2026-03-19


💡 一句话要点

提出NA-VQA基准和Video-NaRA框架,解决长视频叙事推理难题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 长视频问答 叙事推理 多模态学习 事件链 结构化内存 长程依赖 NA-VQA基准

📋 核心要点

  1. 现有长视频问答基准缺乏对叙事推理能力的有效评估,模型难以理解跨越长时间的因果关系。
  2. 论文提出Video-NaRA框架,通过构建事件级别的叙事链并存储在结构化内存中,增强模型对长程依赖关系的理解。
  3. 实验结果表明,Video-NaRA框架在长程推理任务上取得了显著提升,验证了其在处理复杂叙事结构方面的有效性。

📝 摘要(中文)

多模态大型语言模型(MLLM)的最新进展推动了长视频推理基准的涌现。然而,现有基准大多依赖于局部线索,无法捕捉叙事推理,即跟踪意图、连接远距离事件以及重建整个电影中的因果链的能力。我们引入了NA-VQA,这是一个旨在评估长视频中深度时间推理和叙事推理的基准。NA-VQA包含88部完整电影和4.4K个开放式问答对,每个问答对都基于标记为“短”、“中”或“远”的多个证据跨度,以评估长程依赖性。通过要求生成性的多场景答案,NA-VQA测试模型是否可以整合分散的叙事信息,而不是依赖于浅层模式匹配。为了解决现有方法的局限性,我们提出了Video-NaRA,这是一个以叙事为中心的框架,它构建事件级别的链并将它们存储在结构化内存中,以便在推理期间检索。大量实验表明,最先进的MLLM在需要远距离证据的问题上表现不佳,突出了显式叙事建模的必要性。Video-NaRA将长程推理性能提高了高达3%,证明了其在处理复杂叙事结构方面的有效性。NA-VQA将在发布后公开。

🔬 方法详解

问题定义:论文旨在解决长视频问答(VQA)中,现有方法难以进行深度叙事推理的问题。现有方法通常依赖于局部线索和浅层模式匹配,无法有效捕捉视频中跨越长时间的因果关系和事件依赖。这导致模型在需要整合分散的叙事信息时表现不佳。

核心思路:论文的核心思路是以叙事为中心,构建事件级别的叙事链,并将其存储在结构化内存中。通过这种方式,模型可以在推理过程中检索相关的叙事信息,从而更好地理解视频中的长程依赖关系。这种方法旨在弥补现有方法在处理复杂叙事结构方面的不足。

技术框架:Video-NaRA框架包含以下主要模块:1) 事件检测模块:用于检测视频中的关键事件。2) 叙事链构建模块:将检测到的事件连接成叙事链,表示事件之间的因果关系和时间依赖。3) 结构化内存模块:用于存储构建的叙事链,并支持高效的检索。4) 问答模块:根据问题,从结构化内存中检索相关的叙事信息,并生成答案。

关键创新:该论文的关键创新在于提出了以叙事为中心的Video-NaRA框架,显式地建模视频中的叙事结构。与现有方法相比,Video-NaRA框架能够更好地捕捉视频中的长程依赖关系,从而提高长视频问答的性能。此外,NA-VQA基准的提出也为评估模型的叙事推理能力提供了新的平台。

关键设计:在叙事链构建模块中,可以使用Transformer等模型来学习事件之间的关系。结构化内存模块可以使用图数据库或知识图谱等技术来实现。问答模块可以使用多模态大型语言模型(MLLM)来生成答案。损失函数可以包括问答损失和叙事链预测损失,以鼓励模型学习正确的叙事结构。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Video-NaRA框架在NA-VQA基准上取得了显著的性能提升,尤其是在需要远距离证据的问题上。Video-NaRA框架将长程推理性能提高了高达3%,证明了其在处理复杂叙事结构方面的有效性。这表明显式叙事建模对于长视频问答至关重要。

🎯 应用场景

该研究成果可应用于智能视频分析、电影理解、教育视频问答等领域。通过提升模型对长视频叙事的理解能力,可以实现更智能的视频搜索、内容推荐和自动摘要等功能。未来,该技术有望在人机交互、智能助手等领域发挥重要作用。

📄 摘要(原文)

Recent progress in multimodal large language models (MLLMs) has led to a surge of benchmarks for long-video reasoning. However, most existing benchmarks rely on localized cues and fail to capture narrative reasoning, the ability to track intentions, connect distant events, and reconstruct causal chains across an entire movie. We introduce NA-VQA, a benchmark designed to evaluate deep temporal and narrative reasoning in long-form videos. NA-VQA contains 88 full-length movies and 4.4K open-ended question-answer pairs, each grounded in multiple evidence spans labeled as Short, Medium, or Far to assess long-range dependencies. By requiring generative, multi-scene answers, NA-VQA tests whether models can integrate dispersed narrative information rather than rely on shallow pattern matching. To address the limitations of existing approaches, we propose Video-NaRA, a narrative-centric framework that builds event-level chains and stores them in a structured memory for retrieval during reasoning. Extensive experiments show that state-of-the-art MLLMs perform poorly on questions requiring far-range evidence, highlighting the need for explicit narrative modeling. Video-NaRA improves long-range reasoning performance by up to 3 percent, demonstrating its effectiveness in handling complex narrative structures. We will release NA-VQA upon publication.