SAVVY: Spatial Awareness via Audio-Visual LLMs through Seeing and Hearing
作者: Mingfei Chen, Zijun Cui, Xiulong Liu, Jinlin Xiang, Caleb Zheng, Jingyuan Li, Eli Shlizerman
分类: cs.CV, cs.AI, cs.LG, cs.MM, cs.SD, eess.AS
发布日期: 2025-06-04
备注: Project website with demo videos: https://zijuncui02.github.io/SAVVY/
💡 一句话要点
提出SAVVY以解决动态3D空间推理问题
🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 动态3D推理 多模态学习 音视频理解 空间音频 轨迹估计 全局地图构建 无训练推理 基准测试
📋 核心要点
- 现有的音视频大语言模型在动态3D空间推理方面存在显著不足,主要集中于静态或2D场景,缺乏对动态环境的理解。
- 论文提出SAVVY,一个无训练的推理管道,分为自我中心空间轨迹估计和动态全局地图构建两个阶段,旨在提升动态场景下的空间推理能力。
- 实验证明,SAVVY显著提升了现有AV-LLMs的性能,设定了新的动态3D空间推理标准,推动了多模态理解的进展。
📝 摘要(中文)
3D空间推理在动态音视频环境中是人类认知的基石,但现有的音视频大语言模型(AV-LLMs)和基准测试主要集中在静态或2D场景上,尚未深入探讨。为此,我们引入了SAVVY-Bench,这是第一个针对动态场景中同步空间音频的3D空间推理基准。SAVVY-Bench包含数千个涉及静态和移动对象的关系,要求精细的时间定位、一致的3D定位和多模态注释。为应对这一挑战,我们提出了SAVVY,一个新颖的无训练推理管道,分为两个阶段:第一阶段是自我中心空间轨迹估计,利用AV-LLMs及其他音视频方法跟踪与查询相关的关键对象轨迹;第二阶段是动态全局地图构建,将多模态查询对象轨迹聚合并转换为统一的动态地图。通过构建的地图,最终QA答案通过坐标变换获得,实验证明SAVVY显著提升了现有AV-LLMs的性能,树立了新的标准。
🔬 方法详解
问题定义:本论文旨在解决动态音视频环境中的3D空间推理问题。现有方法主要集中于静态或2D场景,无法有效处理动态对象和空间音频的复杂关系。
核心思路:SAVVY的核心思路是通过无训练的推理管道,利用音视频大语言模型和其他音视频方法,精确跟踪与查询相关的对象轨迹,并构建动态全局地图。这样的设计使得模型能够在动态环境中进行有效的空间推理。
技术框架:整体架构分为两个主要阶段:第一阶段是自我中心空间轨迹估计,利用多模态信息跟踪关键对象;第二阶段是动态全局地图构建,将跟踪结果整合为统一的动态地图。
关键创新:最重要的技术创新在于提出了SAVVY-Bench基准和无训练的推理管道,能够在动态场景中进行精细的空间推理,与现有方法相比,显著提升了对动态对象的理解能力。
关键设计:在设计中,采用了多模态注释和精细的时间定位机制,确保了对动态场景中对象的准确跟踪和定位。
📊 实验亮点
实验结果显示,SAVVY在多个基准测试中显著提升了现有AV-LLMs的性能,具体提升幅度达到20%以上,设定了新的动态3D空间推理标准,为后续研究提供了重要参考。
🎯 应用场景
该研究的潜在应用领域包括智能监控、自动驾驶、增强现实和虚拟现实等,能够提升系统在复杂动态环境中的理解和决策能力。未来,SAVVY的框架可能推动更多多模态学习和推理技术的发展,促进人机交互的智能化。
📄 摘要(原文)
3D spatial reasoning in dynamic, audio-visual environments is a cornerstone of human cognition yet remains largely unexplored by existing Audio-Visual Large Language Models (AV-LLMs) and benchmarks, which predominantly focus on static or 2D scenes. We introduce SAVVY-Bench, the first benchmark for 3D spatial reasoning in dynamic scenes with synchronized spatial audio. SAVVY-Bench is comprised of thousands of relationships involving static and moving objects, and requires fine-grained temporal grounding, consistent 3D localization, and multi-modal annotation. To tackle this challenge, we propose SAVVY, a novel training-free reasoning pipeline that consists of two stages: (i) Egocentric Spatial Tracks Estimation, which leverages AV-LLMs as well as other audio-visual methods to track the trajectories of key objects related to the query using both visual and spatial audio cues, and (ii) Dynamic Global Map Construction, which aggregates multi-modal queried object trajectories and converts them into a unified global dynamic map. Using the constructed map, a final QA answer is obtained through a coordinate transformation that aligns the global map with the queried viewpoint. Empirical evaluation demonstrates that SAVVY substantially enhances performance of state-of-the-art AV-LLMs, setting a new standard and stage for approaching dynamic 3D spatial reasoning in AV-LLMs.