SpatialBoost: Enhancing Visual Representation through Language-Guided Reasoning
作者: Byungwoo Jeon, Dongyoung Kim, Huiwon Jang, Insoo Kim, Jinwoo Shin
分类: cs.CV
发布日期: 2026-03-23
备注: 35 pages; 7 figures
💡 一句话要点
SpatialBoost:通过语言引导推理增强视觉表征的空间感知能力
🎯 匹配领域: 支柱七:动作重定向 (Motion Retargeting) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 空间感知 视觉表征 语言引导 大型语言模型 3D推理 Chain-of-Thought 视觉编码器 预训练模型
📋 核心要点
- 现有视觉编码器在2D图像上训练,缺乏对3D空间关系的理解,限制了其在下游任务中的应用。
- SpatialBoost将2D图像的3D空间信息转化为语言描述,通过LLM注入到视觉编码器中,增强空间感知能力。
- 实验表明,SpatialBoost显著提升了DINOv3等模型在ADE20K等基准上的性能,实现了最先进水平。
📝 摘要(中文)
大规模预训练图像表征模型(即视觉编码器)在各种视觉任务中取得了显著成功,但它们主要在2D图像数据上进行训练,因此常常无法捕捉真实世界中物体和背景之间的3D空间关系,从而限制了它们在许多下游应用中的有效性。为了解决这个问题,我们提出了SpatialBoost,这是一个可扩展的框架,通过注入以语言描述表达的3D空间知识来增强现有预训练视觉编码器的空间感知能力。核心思想是将来自2D图像的密集3D空间信息转换为语言表达,然后使用大型语言模型(LLM)将这些空间知识注入到视觉编码器中。为此,我们采用了一种多轮Chain-of-Thought(CoT)推理过程,逐步整合密集的空间知识,并构建分层的空间理解。为了验证有效性,我们将SpatialBoost应用于最先进的视觉编码器,如DINOv3,并在各种需要3D感知和通用视觉能力的基准上评估其性能提升。例如,SpatialBoost将DINOv3在ADE20K上的性能从55.9 mIoU提高到59.7 mIoU,实现了最先进的性能,比预训练的DINOv3提高了3.8%。
🔬 方法详解
问题定义:现有预训练的视觉编码器主要在2D图像数据上训练,缺乏对3D空间关系的理解,导致在需要空间推理的任务中表现不佳。例如,场景理解、机器人导航等任务都需要模型能够准确地理解物体之间的空间位置关系,而现有模型难以胜任。
核心思路:SpatialBoost的核心思路是将2D图像中蕴含的3D空间信息转化为语言描述,然后利用大型语言模型(LLM)的强大推理能力,将这些空间知识注入到视觉编码器中。通过这种方式,视觉编码器可以学习到更加丰富的空间信息,从而提高其在3D相关任务中的性能。
技术框架:SpatialBoost框架主要包含以下几个阶段:1) 3D空间信息提取:从2D图像中提取密集的3D空间信息,例如深度信息、物体位置等。2) 语言描述生成:将提取的3D空间信息转化为自然语言描述,例如“桌子在椅子前面”、“灯在天花板上”等。3) LLM知识注入:利用大型语言模型(LLM)对生成的语言描述进行推理,并将推理结果注入到视觉编码器中。4) 视觉编码器微调:使用注入了空间知识的视觉编码器在下游任务上进行微调,以进一步提高性能。
关键创新:SpatialBoost的关键创新在于利用语言作为桥梁,将3D空间信息注入到视觉编码器中。与直接在3D数据上训练模型相比,SpatialBoost可以利用现有的2D预训练模型,并且可以利用LLM的强大推理能力。此外,SpatialBoost采用多轮Chain-of-Thought(CoT)推理过程,逐步整合密集的空间知识,构建分层的空间理解,进一步提升了模型的性能。
关键设计:SpatialBoost的关键设计包括:1) 使用深度估计模型提取2D图像的深度信息。2) 设计合适的语言模板,将3D空间信息转化为自然语言描述。3) 选择合适的LLM,并设计合适的prompt,引导LLM进行空间推理。4) 使用对比学习损失函数,鼓励视觉编码器学习到更加丰富的空间信息。
🖼️ 关键图片
📊 实验亮点
SpatialBoost在ADE20K语义分割任务上取得了显著的性能提升。例如,将SpatialBoost应用于DINOv3模型,在ADE20K上的mIoU从55.9%提高到59.7%,提升了3.8%,达到了state-of-the-art的水平。此外,SpatialBoost还在其他需要3D感知和通用视觉能力的基准上取得了类似的性能提升,验证了该方法的有效性。
🎯 应用场景
SpatialBoost具有广泛的应用前景,例如可以应用于机器人导航、自动驾驶、场景理解、虚拟现实等领域。通过增强视觉模型的空间感知能力,可以提高机器人在复杂环境中的适应性和鲁棒性,从而实现更加智能化的应用。此外,该方法还可以应用于医学图像分析、遥感图像分析等领域,提高图像分析的准确性和效率。
📄 摘要(原文)
Despite the remarkable success of large-scale pre-trained image representation models (i.e., vision encoders) across various vision tasks, they are predominantly trained on 2D image data and therefore often fail to capture 3D spatial relationships between objects and backgrounds in the real world, constraining their effectiveness in many downstream applications. To address this, we propose SpatialBoost, a scalable framework that enhances the spatial awareness of existing pre-trained vision encoders by injecting 3D spatial knowledge expressed in linguistic descriptions. The core idea involves converting dense 3D spatial information from 2D images into linguistic expressions, which is then used to inject such spatial knowledge into vision encoders through a Large Language Model (LLM). To this end, we adopt a multi-turn Chain-of-Thought (CoT) reasoning process that progressively incorporates dense spatial knowledge and builds hierarchical spatial understanding. To validate effectiveness, we adapt SpatialBoost to state-of-the-art vision encoders such as DINOv3, and evaluate its performance gains on a wide range of benchmarks requiring both 3D perception and general vision abilities. For instance, SpatialBoost improves DINOv3 performance from 55.9 to 59.7 mIoU on ADE20K, achieving state-of-the-art performance with 3.8% gain over the pre-trained DINOv3.