R-AVST: Empowering Video-LLMs with Fine-Grained Spatio-Temporal Reasoning in Complex Audio-Visual Scenarios

📄 arXiv: 2511.16901v2 📥 PDF

作者: Lu Zhu, Tiantian Geng, Yangye Chen, Teng Wang, Ping Lu, Feng Zheng

分类: cs.CV

发布日期: 2025-11-21 (更新: 2025-11-27)

备注: Accepted by AAAI 2026. Project page: https://github.com/zhlllau/R-AVST


💡 一句话要点

提出R-AVST数据集和AVST-Zero模型,增强视频LLM在复杂视听场景下的时空推理能力

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视听推理 时空推理 多模态学习 强化学习 视频理解

📋 核心要点

  1. 现有视频理解研究主要集中于简单场景,无法反映真实世界视频中复杂多样的视听事件。
  2. 提出R-AVST数据集和AVST-Zero模型,通过细粒度的时空标注和强化学习优化,提升模型推理能力。
  3. 实验表明,R-AVST数据集能够有效促进视听时空推理,AVST-Zero模型性能与现有模型相比具有竞争力。

📝 摘要(中文)

本文针对现有多模态大语言模型(MLLM)在复杂视听场景下视频理解能力不足的问题,提出了R-AVST数据集,该数据集包含细粒度的时空标注,涵盖超过5000个未裁剪视频,27000个对象以及100种视听事件。数据集构建流程包括基于LLM的关键对象提取、自动空间标注和人工质量检查。基于此,定义了三个核心的视听场景时空推理任务,并生成了超过8000个高质量、均匀分布的问答对,用于有效评估模型性能。此外,提出了AVST-Zero模型,该模型基于强化学习,避免了中间监督,通过精心设计的多维奖励直接优化行为。大量实验验证了R-AVST在促进视听时空推理方面的有效性,AVST-Zero也展现了与现有模型相比具有竞争力的性能。据我们所知,R-AVST是第一个为真实世界视听时空推理而设计的数据集,AVST-Zero为解决该领域未来的挑战提供了一个新的视角。

🔬 方法详解

问题定义:现有视频理解模型在处理真实世界复杂视听场景时,缺乏细粒度的时空推理能力。现有数据集和方法难以捕捉视频中对象间的复杂关系和动态变化,导致模型在理解和推理方面表现不佳。

核心思路:论文的核心思路是构建一个包含细粒度时空标注的大规模数据集(R-AVST),并在此基础上训练一个基于强化学习的模型(AVST-Zero)。通过数据集提供丰富的视听信息,并通过强化学习直接优化模型的推理行为,从而提升模型在复杂视听场景下的时空推理能力。

技术框架:整体框架包含两个主要部分:R-AVST数据集构建和AVST-Zero模型训练。R-AVST数据集构建流程包括:1) 基于LLM的关键对象提取;2) 自动空间标注;3) 人工质量检查。AVST-Zero模型训练使用强化学习,模型直接与环境交互,通过多维奖励信号学习最优策略。

关键创新:R-AVST数据集是第一个专门为真实世界视听时空推理设计的数据集,它提供了细粒度的时空标注,涵盖了多种视听事件。AVST-Zero模型避免了中间监督,直接通过强化学习优化推理行为,这与传统的监督学习方法不同。

关键设计:R-AVST数据集构建中,LLM用于提取关键对象,自动空间标注算法用于生成初始标注,人工检查确保标注质量。AVST-Zero模型使用多维奖励函数,奖励函数的设计考虑了推理的准确性、效率和一致性等因素。强化学习算法选择合适的策略梯度方法,例如PPO或Actor-Critic。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,R-AVST数据集能够有效提升现有模型在视听时空推理任务上的性能。AVST-Zero模型在R-AVST数据集上取得了与现有模型相比具有竞争力的性能,证明了强化学习在视听推理任务中的潜力。具体性能数据和对比基线在论文中有详细展示。

🎯 应用场景

该研究成果可应用于智能监控、自动驾驶、人机交互等领域。例如,在智能监控中,模型可以理解监控视频中的复杂事件,并及时发出警报。在自动驾驶中,模型可以理解车辆周围的视听信息,从而做出更安全的决策。在人机交互中,模型可以理解用户的意图,并提供更自然的交互体验。

📄 摘要(原文)

Recently, rapid advancements have been made in multimodal large language models (MLLMs), especially in video understanding tasks. However, current research focuses on simple video scenarios, failing to reflect the complex and diverse nature of real-world audio-visual events in videos. To bridge this gap, we firstly introduce R-AVST, a dataset for audio-visual reasoning featuring fine-grained spatio-temporal annotations. In constructing this, we design a pipeline consisting of LLM-based key object extraction, automatic spatial annotation and manual quality inspection, resulting in over 5K untrimmed videos with 27K objects across 100 types of audio-visual events. Building on this dataset, we define three core tasks for spatio-temporal reasoning in audio-visual scenes and generate more than 8K high-quality, evenly distributed question-answer pairs to effectively benchmark model performance. To further enhance reasoning, we propose AVST-Zero, a reinforcement learning-based model that avoids intermediate supervision, directly optimizing behavior via carefully designed multi-dimensional rewards. Extensive experiments validate the effectiveness of our R-AVST in advancing audio-visual spatio-temporal reasoning, upon which AVST-Zero demonstrates competitive performance compared to existing models. To the best of our knowledge, R-AVST is the first dataset designed for real-world audio-visual spatio-temporal reasoning, and AVST-Zero offers a novel perspective for tackling future challenges in this domain.