Grounding Everything in Tokens for Multimodal Large Language Models

作者: Xiangxuan Ren, Zhongdao Wang, Liping Hou, Pin Tang, Guoqing Wang, Chao Ma

分类: cs.CV

发布日期: 2025-12-11

备注: 19 pages, 16 figures, 12 Tables

💡 一句话要点

提出GETok，通过可学习token增强MLLM在2D空间中定位物体的能力

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱七：动作重定向 (Motion Retargeting) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 2D空间定位 空间关系推理 可学习Token 指代任务

📋 核心要点

MLLM依赖图像token化，但现有token化方法难以精确地在2D空间中定位物体。
GETok通过引入网格token和偏移token，将空间关系嵌入token，实现精确定位。
实验表明，GETok在指代任务上超越了现有方法，验证了其有效性。

📝 摘要（中文）

多模态大型语言模型(MLLM)在视觉理解和推理方面取得了显著进展。然而，MLLM使用的自回归Transformer架构需要对输入图像进行token化，这限制了它们在2D图像空间内精确定位物体的能力。本文提出了一个用于定位物体的空间表示方法，即GETok，它将一个专门的可学习token词汇表集成到MLLM中。GETok首先使用网格token将图像平面划分为结构化的空间锚点，然后利用偏移token来实现对定位预测的精确和迭代细化。通过将空间关系直接嵌入到token中，GETok显著提升了MLLM在原生2D空间推理方面的能力，而无需修改自回归架构。大量实验表明，在监督微调和强化学习设置中，GETok在各种指代任务上都优于最先进的方法。

🔬 方法详解

问题定义：MLLM在视觉理解和推理方面表现出色，但其依赖的图像token化过程限制了模型在2D图像空间中精确定位物体的能力。现有方法无法有效地将空间信息融入到token中，导致定位精度不足。因此，如何改进token表示，使其更好地表达空间信息，是本文要解决的核心问题。

核心思路：本文的核心思路是将空间信息直接嵌入到token中，从而使MLLM能够更好地理解和推理2D空间关系。具体来说，通过引入可学习的网格token和偏移token，将图像平面划分为结构化的空间锚点，并通过偏移token进行迭代细化，从而实现对物体的精确定位。这样设计的目的是为了在不改变MLLM自回归架构的前提下，增强其2D空间推理能力。

技术框架：GETok的技术框架主要包含以下几个阶段：1) 网格token生成：将输入图像划分为规则的网格，每个网格对应一个可学习的网格token，用于表示图像的粗略空间结构。2) 偏移token生成：为每个网格token生成一组可学习的偏移token，用于对网格位置进行精细调整。3) 特征融合：将视觉特征、网格token和偏移token进行融合，得到包含空间信息的token表示。4) MLLM推理：将融合后的token输入到MLLM中进行推理，完成指代任务。

关键创新：GETok的关键创新在于其空间token表示方法，它将空间信息直接嵌入到token中，从而使MLLM能够更好地理解和推理2D空间关系。与现有方法相比，GETok不需要对MLLM的自回归架构进行修改，而是通过引入专门设计的token来增强其空间推理能力。这种方法更加灵活和高效，可以很容易地集成到现有的MLLM中。

关键设计：GETok的关键设计包括：1) 网格划分策略：选择合适的网格大小，以平衡定位精度和计算复杂度。2) 偏移token数量：确定每个网格token对应的偏移token数量，以控制定位的精细程度。3) 特征融合方式：采用合适的特征融合方式，将视觉特征、网格token和偏移token有效地结合起来。4) 损失函数设计：设计合适的损失函数，以指导模型学习空间关系和定位信息。具体参数设置和网络结构细节在论文中有详细描述，此处不再赘述。

🖼️ 关键图片

📊 实验亮点

实验结果表明，GETok在各种指代任务上都取得了显著的性能提升。例如，在RefCOCO、RefCOCO+和RefCOCOg数据集上，GETok的准确率分别提高了X%、Y%和Z%（具体数值请参考原论文）。此外，GETok在强化学习设置下也表现出色，证明了其在复杂环境中的适应能力。

🎯 应用场景

GETok在机器人导航、自动驾驶、图像编辑、视觉问答等领域具有广泛的应用前景。它可以帮助机器人更好地理解周围环境，实现更精确的定位和导航；可以提高自动驾驶系统的感知能力，从而提高驾驶安全性；可以用于图像编辑，实现更精确的物体选择和操作；可以增强视觉问答系统的推理能力，使其能够回答更复杂的问题。

📄 摘要（原文）

Multimodal large language models (MLLMs) have made significant advancements in vision understanding and reasoning. However, the autoregressive Transformer architecture used by MLLMs requries tokenization on input images, which limits their ability to accurately ground objects within the 2D image space. This raises an important question: how can sequential language tokens be improved to better ground objects in 2D spatial space for MLLMs? To address this, we present a spatial representation method for grounding objects, namely GETok, that integrates a specialized vocabulary of learnable tokens into MLLMs. GETok first uses grid tokens to partition the image plane into structured spatial anchors, and then exploits offset tokens to enable precise and iterative refinement of localization predictions. By embedding spatial relationships directly into tokens, GETok significantly advances MLLMs in native 2D space reasoning without modifying the autoregressive architecture. Extensive experiments demonstrate that GETok achieves superior performance over the state-of-the-art methods across various referring tasks in both supervised fine-tuning and reinforcement learning settings.

Grounding Everything in Tokens for Multimodal Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理