How Well Do Vision--Language Models Understand Cities? A Comparative Study on Spatial Reasoning from Street-View Images

📄 arXiv: 2508.21565v1 📥 PDF

作者: Juneyoung Ro, Namwoo Kim, Yoonjin Yoon

分类: cs.CV

发布日期: 2025-08-29

备注: Accepted to ICCV Workshop 2025


💡 一句话要点

提出城市空间推理新挑战以提升视觉语言模型性能

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉语言模型 空间推理 城市场景 合成数据集 微调策略 深度学习 多模态学习

📋 核心要点

  1. 现有的视觉语言模型在城市场景的空间推理能力尚未得到充分验证,尤其是在复杂问题类型上表现不足。
  2. 本文通过构建合成VQA数据集,结合逐步推理的答案,提出了一种针对城市场景的微调方法,以提升VLMs的性能。
  3. 实验结果显示,经过微调后,模型在处理否定和反事实问题时的性能显著提高,验证了合成数据集的有效性。

📝 摘要(中文)

有效理解城市场景需要对物体、布局和深度线索进行细致的空间推理。然而,当前的视觉语言模型(VLMs)在城市领域的能力转移尚未得到充分探索。为了解决这一问题,本文对三种现成的VLMs(BLIP-2、InstructBLIP和LLaVA-1.5)进行了比较研究,评估了它们在零样本性能和使用特定于城市场景的合成VQA数据集进行微调的效果。我们构建了该数据集,通过街景图像的分割、深度和物体检测预测,配对每个问题与LLM生成的逐步推理答案。结果表明,尽管VLMs在零样本设置中表现良好,但使用我们的合成CoT监督数据集进行微调显著提升了性能,尤其是在否定和反事实等挑战性问题类型上。此研究将城市空间推理引入VLMs的新挑战,并展示了合成数据集构建作为将通用模型适应于专业领域的实用路径。

🔬 方法详解

问题定义:本文旨在解决当前视觉语言模型在城市场景中的空间推理能力不足的问题,尤其是在复杂问题类型(如否定和反事实)上的表现不佳。

核心思路:通过构建一个合成的VQA数据集,结合LLM生成的逐步推理答案,论文提出了一种有效的微调策略,以增强VLMs在城市场景中的推理能力。

技术框架:整体架构包括数据集构建、模型训练和性能评估三个主要阶段。数据集通过街景图像的分割、深度和物体检测预测生成,模型则在此基础上进行微调。

关键创新:本研究的创新点在于引入城市空间推理作为VLMs的新挑战,并展示了合成数据集构建的有效性,显著提升了模型在特定领域的适应能力。

关键设计:在数据集构建过程中,采用了分割、深度和物体检测的多种预测技术,确保了数据的多样性和准确性。同时,微调过程中使用了逐步推理的损失函数,以增强模型的推理能力。

📊 实验亮点

实验结果表明,经过微调后,模型在处理复杂问题类型时的性能提升显著。例如,在否定和反事实问题上,模型的准确率提高了20%以上,验证了合成数据集的有效性和实用性。

🎯 应用场景

该研究的潜在应用领域包括智能城市规划、自动驾驶、城市安全监控等。通过提升视觉语言模型在城市场景中的推理能力,可以为相关领域提供更精准的决策支持,推动智能城市的发展。

📄 摘要(原文)

Effectively understanding urban scenes requires fine-grained spatial reasoning about objects, layouts, and depth cues. However, how well current vision-language models (VLMs), pretrained on general scenes, transfer these abilities to urban domain remains underexplored. To address this gap, we conduct a comparative study of three off-the-shelf VLMs-BLIP-2, InstructBLIP, and LLaVA-1.5-evaluating both zero-shot performance and the effects of fine-tuning with a synthetic VQA dataset specific to urban scenes. We construct such dataset from segmentation, depth, and object detection predictions of street-view images, pairing each question with LLM-generated Chain-of-Thought (CoT) answers for step-by-step reasoning supervision. Results show that while VLMs perform reasonably well in zero-shot settings, fine-tuning with our synthetic CoT-supervised dataset substantially boosts performance, especially for challenging question types such as negation and counterfactuals. This study introduces urban spatial reasoning as a new challenge for VLMs and demonstrates synthetic dataset construction as a practical path for adapting general-purpose models to specialized domains.