Perceptio: Perception Enhanced Vision Language Models via Spatial Token Generation

作者: Yuchen Li, Amanmeet Garg, Shalini Chaudhuri, Rui Zhao, Garin Kessler

分类: cs.CV, cs.AI

发布日期: 2026-03-19

💡 一句话要点

Perceptio：通过空间Token生成增强视觉语言模型感知能力

🎯 匹配领域: 支柱四：生成式动作 (Generative Motion) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉语言模型 空间推理 语义分割 深度估计 Token生成

📋 核心要点

现有LVLM模型在空间定位方面存在不足，难以进行细粒度的几何推理，限制了其在需要精确空间理解任务中的应用。
Perceptio通过显式生成语义分割和深度Token，增强了LVLM的空间推理能力，使其能够更好地理解和利用图像中的空间信息。
实验结果表明，Perceptio在指代表达式分割、空间理解和多模态基准测试中均取得了显著的性能提升，验证了其有效性。

📝 摘要（中文）

大型视觉语言模型(LVLMs)在语义理解方面表现出色，但在细粒度的空间定位方面存在困难，因为模型必须隐式地推断复杂的几何结构，而无需生成空间解释。我们提出了Perceptio，一种感知增强的LVLM，具有2D和3D空间推理能力，通过在自回归序列中直接生成显式的语义分割Token和深度Token来实现。具体来说，我们(i)从强大的单目教师模型中提炼出一个VQVAE深度码本，将密集深度量化为紧凑的序列，以及(ii)将基于SAM2的语义分割Token和VQ-VAE深度Token集成到LLM中，以便模型首先发出空间Token，然后回答问题。为了稳定深度Token的生成，我们引入了新的复合深度Token目标(标记、Token和计数损失)和用于可微重建的软合并技术。我们采用跨多个数据集的多任务协同训练策略，让模型学习感知Token来处理多个下游任务。基于InternVL，Perceptio在多个基准测试中实现了最先进的性能：在RefCOCO/+/g上将指代表达式分割的cIoU提高了+0.8/+1.4/+1.1，HardBLINK空间理解准确率提高了10.3%，MMBench准确率提高了1.0%，表明显式的空间思维链显著增强了LVLM中的空间定位。

🔬 方法详解

问题定义：现有的大型视觉语言模型(LVLMs)虽然在语义理解方面表现出色，但在处理需要精确定位的任务时，例如指代表达式分割和空间关系推理，表现不佳。这是因为模型需要隐式地从图像中推断复杂的几何信息，而缺乏显式的空间表示。这种隐式推理方式限制了模型对细粒度空间信息的利用，导致性能瓶颈。

核心思路：Perceptio的核心思路是通过显式地生成空间Token来增强LVLM的空间感知能力。具体来说，模型首先生成代表图像语义分割和深度的Token序列，然后利用这些Token进行后续的推理和预测。这种显式空间表示的方式使得模型能够更直接地访问和利用图像中的空间信息，从而提高空间定位的准确性。

技术框架：Perceptio的整体框架包括以下几个主要模块：1) 深度Token生成模块：使用单目深度估计模型生成深度图，然后通过VQ-VAE将其量化为离散的深度Token序列。2) 语义分割Token生成模块：利用SAM2模型生成语义分割掩码，并将其转换为语义分割Token序列。3) LVLM集成模块：将深度Token和语义分割Token插入到LVLM的输入序列中，让模型同时处理图像和空间Token。4) 多任务协同训练模块：采用多任务学习策略，在多个数据集上联合训练模型，以提高其泛化能力。

关键创新：Perceptio的关键创新在于显式空间Token的生成和集成。与以往依赖隐式空间推理的方法不同，Perceptio通过生成代表图像语义分割和深度的Token序列，为LVLM提供了显式的空间表示。这种显式表示方式使得模型能够更直接地访问和利用图像中的空间信息，从而提高空间定位的准确性。此外，论文还提出了新的复合深度Token目标和软合并技术，以稳定深度Token的生成。

关键设计：在深度Token生成方面，论文采用了VQ-VAE进行深度图的量化，并设计了marker loss, token loss, count loss三种损失函数来约束深度token的生成，并使用soft-merging技术来保证可微重建。在LVLM集成方面，论文将空间Token插入到图像Token之后，并采用多任务协同训练策略，以提高模型的泛化能力。具体参数设置和网络结构细节未在摘要中详细说明，需要参考论文全文。

🖼️ 关键图片

📊 实验亮点

Perceptio在多个基准测试中取得了显著的性能提升。在RefCOCO/+/g上，指代表达式分割的cIoU提高了+0.8/+1.4/+1.1。在HardBLINK空间理解准确率提高了10.3%。在MMBench准确率提高了1.0%。这些结果表明，Perceptio通过显式空间Token的生成和集成，显著增强了LVLM的空间定位能力。

🎯 应用场景

Perceptio在机器人导航、自动驾驶、增强现实等领域具有广泛的应用前景。通过增强视觉语言模型的空间感知能力，可以提高机器人对环境的理解和交互能力，实现更智能的导航和操作。在自动驾驶领域，可以提高车辆对周围环境的感知精度，从而提高驾驶安全性。在增强现实领域，可以实现更精确的虚拟物体与现实世界的对齐和交互。

📄 摘要（原文）

Large Vision Language Models (LVLMs) excel at semantic understanding but struggle with fine grained spatial grounding, as the model must implicitly infer complex geometry without ever producing a spatial interpretation. We present Perceptio, a perception enhanced LVLM with 2D and 3D spatial reasoning abilities, enabled via explicit semantic segmentation tokens and depth tokens generated directly within the autoregressive sequence. Concretely, we (i) distill a VQVAE depth codebook from a strong monocular teacher to tokenize dense depth into compact sequences, and (ii) integrate SAM2 based semantic segmentation tokens and VQ-VAE depth tokens inside the LLM so the model first emits spatial tokens and then answers. To stabilize depth token generation, we introduce novel composite depth-token objectives (marker, token, and count losses) and a soft-merging technique for differentiable reconstruction. We adopt a multi-task co-training strategy across diverse datasets, letting the model learn perception tokens to tackle multiple downstream tasks. Building on InternVL, Perceptio achieves state-of-the-art performance across benchmarks: improving referring expression segmentation by +0.8/+1.4/+1.1 cIoU on RefCOCO/+/g HardBLINK spatial understanding accuracy by 10.3%, and MMBench accuracy by 1.0%, demonstrating that explicit spatial chain-of-thought materially strengthens spatial grounding in LVLMs.

Perceptio: Perception Enhanced Vision Language Models via Spatial Token Generation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理