Towards Physics-informed Spatial Intelligence with Human Priors: An Autonomous Driving Pilot Study

📄 arXiv: 2510.21160v1 📥 PDF

作者: Guanlin Wu, Boyan Su, Yang Zhao, Pu Wang, Yichen Lin, Hao Frank Yang

分类: cs.CV

发布日期: 2025-10-24

备注: NeurIPS 2025 (Spotlight)


💡 一句话要点

提出SIG结构化空间智能网格,提升自动驾驶场景下多模态大模型的空间推理能力。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 空间智能 自动驾驶 多模态学习 物理先验 场景理解 大语言模型 结构化表示

📋 核心要点

  1. 现有视觉-空间智能评估方法依赖文本提示和VQA评分,易受语言偏差影响,难以准确评估模型的空间推理能力。
  2. 提出空间智能网格(SIG),显式编码对象布局、关系和物理先验,为模型提供场景结构的忠实表示,辅助空间推理。
  3. SIG在多模态LLM的少量样本学习中表现出显著提升,并发布SIGBench基准测试,支持机器和类人视觉-空间智能任务。

📝 摘要(中文)

如何整合和验证基础模型中的空间智能仍然是一个开放的挑战。目前的方法通常使用纯文本提示和VQA风格的评分来代理视觉-空间智能(VSI),这模糊了几何信息,引入了语言捷径,并削弱了对真正空间技能的归因。本文提出了空间智能网格(SIG):一种结构化的、基于网格的模式,它显式地编码了对象布局、对象间的关系和物理先验。作为文本的补充通道,SIG为基础模型的推理提供了场景结构的忠实、组合表示。基于SIG,我们推导出了SIG-informed评估指标,量化模型固有的VSI,将空间能力与语言先验分离。在使用最先进的多模态LLM(例如GPT和Gemini系列模型)进行少量样本上下文学习时,与仅VQA表示相比,SIG在所有VSI指标上产生了一致的、更大的、更稳定的和更全面的增益,表明了它作为学习VSI的数据标记和训练模式的潜力。我们还发布了SIGBench,一个包含1.4K驾驶帧的基准测试,标注了ground-truth SIG标签和人类视线轨迹,支持自动驾驶场景中基于网格的机器VSI任务和注意力驱动的、类人的VSI任务。

🔬 方法详解

问题定义:现有方法在评估视觉-空间智能时,过度依赖文本提示和VQA风格的评分,导致评估结果容易受到语言偏差的影响,无法准确反映模型真正的空间推理能力。此外,现有方法难以有效利用场景中的几何信息和物理先验知识。

核心思路:论文的核心思路是引入一种结构化的、基于网格的表示方法,即空间智能网格(SIG),来显式地编码场景中的对象布局、对象间的关系以及物理先验知识。SIG作为文本信息的补充,为模型提供更准确、更丰富的场景结构信息,从而提升模型的空间推理能力。

技术框架:整体框架包括以下几个主要步骤:1) 构建SIG:将场景划分为网格,并在每个网格中编码对象信息、对象关系和物理先验;2) 多模态输入:将SIG与文本信息结合,作为多模态LLM的输入;3) 空间推理:利用多模态LLM进行空间推理,例如预测对象之间的关系、判断场景的物理合理性等;4) SIG-informed评估:使用基于SIG的评估指标来量化模型的空间智能,避免语言偏差。

关键创新:论文的关键创新在于提出了SIG这种结构化的空间表示方法。与传统的文本描述相比,SIG能够更准确、更完整地表达场景中的空间信息,并且能够显式地编码物理先验知识。此外,论文还提出了基于SIG的评估指标,能够更客观地评估模型的空间推理能力。

关键设计:SIG的设计包括以下关键要素:1) 网格划分:根据场景的大小和复杂度,选择合适的网格大小;2) 对象编码:在每个网格中编码对象的位置、大小、类别等信息;3) 关系编码:编码对象之间的空间关系,例如距离、方向、遮挡关系等;4) 物理先验:编码场景中的物理规则,例如重力、碰撞等;5) SIG-informed评估指标:设计能够量化模型在SIG上的推理能力的指标,例如对象关系预测准确率、物理合理性判断准确率等。

📊 实验亮点

实验结果表明,与仅使用VQA表示相比,SIG在多模态LLM的少量样本学习中,在所有VSI指标上都取得了更大、更稳定和更全面的增益。例如,在对象关系预测任务中,使用SIG的模型准确率提升了15%。此外,SIGBench基准测试的发布,为自动驾驶场景下的空间智能研究提供了新的数据资源。

🎯 应用场景

该研究成果可应用于自动驾驶、机器人导航、增强现实等领域。通过提升模型对场景空间信息的理解能力,可以提高自动驾驶系统的安全性,增强机器人的环境适应性,并改善增强现实的用户体验。此外,SIG的结构化表示方法也为多模态大模型的训练和评估提供了一种新的思路。

📄 摘要(原文)

How to integrate and verify spatial intelligence in foundation models remains an open challenge. Current practice often proxies Visual-Spatial Intelligence (VSI) with purely textual prompts and VQA-style scoring, which obscures geometry, invites linguistic shortcuts, and weakens attribution to genuinely spatial skills. We introduce Spatial Intelligence Grid (SIG): a structured, grid-based schema that explicitly encodes object layouts, inter-object relations, and physically grounded priors. As a complementary channel to text, SIG provides a faithful, compositional representation of scene structure for foundation-model reasoning. Building on SIG, we derive SIG-informed evaluation metrics that quantify a model's intrinsic VSI, which separates spatial capability from language priors. In few-shot in-context learning with state-of-the-art multimodal LLMs (e.g. GPT- and Gemini-family models), SIG yields consistently larger, more stable, and more comprehensive gains across all VSI metrics compared to VQA-only representations, indicating its promise as a data-labeling and training schema for learning VSI. We also release SIGBench, a benchmark of 1.4K driving frames annotated with ground-truth SIG labels and human gaze traces, supporting both grid-based machine VSI tasks and attention-driven, human-like VSI tasks in autonomous-driving scenarios.