SpaceDG: Benchmarking Spatial Intelligence under Visual Degradation

📄 arXiv: 2605.22536v1 📥 PDF

作者: Xiaolong Zhou, Yifei Liu, Ziyang Gong, Jiarui Li, Qiyue Zhao, Muyao Niu, Yuanyuan Gao, Le Ma, Xue Yang, Hongjie Zhang, Zhihang Zhong

分类: cs.CV, cs.CL

发布日期: 2026-05-21


💡 一句话要点

提出SpaceDG:用于评估视觉退化下多模态大模型空间智能的首个大规模基准数据集。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 空间推理 视觉退化 数据集 基准测试

📋 核心要点

  1. 现有空间推理基准主要关注理想视觉输入,忽略了真实场景中常见的视觉退化问题,导致模型在实际应用中表现不佳。
  2. 论文提出SpaceDG数据集,通过3D高斯溅射渲染模拟多种真实视觉退化,并构建了包含大量QA对的基准测试集SpaceDG-Bench。
  3. 实验表明,现有MLLM在视觉退化下空间推理能力显著下降,但在SpaceDG上微调后,模型鲁棒性显著提升,甚至超越人类表现。

📝 摘要(中文)

多模态大语言模型(MLLMs)在空间智能方面取得了快速进展,但现有的空间推理基准主要假设视觉输入是完美的,忽略了真实部署中常见的退化,如运动模糊、低光照、恶劣天气、镜头畸变和压缩伪影。这提出了一个根本问题:当视觉观察不完美时,当前MLLM的空间智能有多强大?为了回答这个问题,我们引入了SpaceDG,这是第一个用于退化感知空间理解的大规模数据集。它使用物理上合理的退化合成引擎构建,该引擎将退化形成过程嵌入到3D高斯溅射(3DGS)渲染中,从而能够真实地模拟九种退化类型。生成的数据集包含来自近1000个室内场景的约100万个QA对。我们进一步引入了SpaceDG-Bench,这是一个经过人工验证的基准,包含1102个问题,涵盖11个推理类别和9种视觉退化类型,产生超过10K个VQA实例。对25个开源和闭源MLLM的评估表明,视觉退化始终且显著地损害空间推理,暴露了一个关键的鲁棒性差距。最后,我们表明,在SpaceDG上进行微调可以显著提高退化鲁棒性,甚至可以在退化条件下超过人类性能,而不会降低在干净图像上的性能,突出了退化感知训练对鲁棒空间智能的希望。

🔬 方法详解

问题定义:论文旨在解决多模态大语言模型(MLLMs)在真实场景中,由于视觉退化(如运动模糊、低光照等)导致空间推理能力下降的问题。现有空间推理基准数据集大多基于清晰、理想化的图像,无法有效评估和提升模型在实际应用中的鲁棒性。

核心思路:论文的核心思路是构建一个大规模、逼真的视觉退化数据集SpaceDG,并基于此数据集对MLLMs进行评估和微调,从而提高其在各种视觉退化条件下的空间推理能力。通过将退化形成过程嵌入到3D高斯溅射渲染中,可以更真实地模拟各种视觉退化效果。

技术框架:SpaceDG的构建主要包含以下几个阶段:1) 使用3D高斯溅射(3DGS)渲染生成高质量的室内场景图像;2) 通过物理上合理的退化合成引擎,将九种不同类型的视觉退化(如运动模糊、低光照、恶劣天气等)应用于渲染图像;3) 基于退化后的图像,生成大量的问答对(QA pairs),用于训练和评估MLLMs。SpaceDG-Bench是SpaceDG的一个人工验证子集,用于更可靠的基准测试。

关键创新:论文的关键创新在于:1) 提出了首个大规模的视觉退化感知空间理解数据集SpaceDG,填补了现有数据集在视觉退化方面的空白;2) 使用3D高斯溅射渲染和物理上合理的退化合成引擎,能够更真实地模拟各种视觉退化效果;3) 通过实验证明,在SpaceDG上进行微调可以显著提高MLLMs在视觉退化条件下的空间推理能力。

关键设计:SpaceDG数据集包含约100万个QA对,涵盖近1000个室内场景。SpaceDG-Bench包含1102个问题,涵盖11个推理类别和9种视觉退化类型,产生超过10K个VQA实例。论文评估了25个开源和闭源MLLMs,并使用标准的VQA评估指标进行性能评估。微调过程中,使用了标准的交叉熵损失函数,并针对不同的MLLMs调整了学习率等超参数。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,现有MLLM在SpaceDG-Bench上的表现远低于在干净图像上的表现,验证了视觉退化对空间推理的显著影响。通过在SpaceDG上进行微调,模型的性能得到了显著提升,甚至在某些退化条件下超过了人类的表现。例如,在特定退化类型下,模型准确率提升了10%以上,且在干净图像上的性能没有下降。

🎯 应用场景

该研究成果可广泛应用于机器人导航、自动驾驶、智能监控等领域。通过提高模型在恶劣视觉条件下的空间推理能力,可以增强机器人在复杂环境中的适应性和可靠性。未来,该研究可以进一步扩展到室外场景和更多类型的视觉退化,为开发更鲁棒的智能系统奠定基础。

📄 摘要(原文)

Multimodal Large Language Models (MLLMs) have made rapid progress in spatial intelligence, yet existing spatial reasoning benchmarks largely assume pristine visual inputs and overlook the degradations that commonly occur in real-world deployment, such as motion blur, low light, adverse weather, lens distortion, and compression artifacts. This raises a fundamental question: how robust is the spatial intelligence of current MLLMs when visual observations are imperfect? To answer this question, we introduce SpaceDG, the first large-scale dataset for degradation-aware spatial understanding. It is constructed with a physically grounded degradation synthesis engine that embeds degradation formation process into 3D Gaussian Splatting (3DGS) rendering, enabling realistic simulation of nine degradation types. The resulting dataset contains approximately 1M QA pairs from nearly 1,000 indoor scenes. We further introduce SpaceDG-Bench, an human-verified benchmark with 1,102 questions spanning 11 reasoning categories and 9 visual degradation types, yielding over 10K VQA instances. Evaluating 25 open- and closed-source MLLMs reveals that visual degradations consistently and substantially impair spatial reasoning, exposing a critical robustness gap. Finally, we show that finetuning on SpaceDG markedly improves degradation robustness and can even surpass human performance under degraded conditions without any performance drop on clean images, highlighting the promise of degradation-aware training for robust spatial intelligence.