Mull-Tokens: Modality-Agnostic Latent Thinking

📄 arXiv: 2512.10941v1 📥 PDF

作者: Arijit Ray, Ahmed Abdelkader, Chengzhi Mao, Bryan A. Plummer, Kate Saenko, Ranjay Krishna, Leonidas Guibas, Wen-Sheng Chu

分类: cs.CV, cs.AI

发布日期: 2025-12-11

备注: Project webpage: https://arijitray.com/multimodal_thinking/


💡 一句话要点

提出Mull-Tokens:一种模态无关的潜在表征,用于提升多模态推理能力。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态推理 潜在表征 模态无关 空间推理 图像理解

📋 核心要点

  1. 现有模型在多模态推理中依赖外部工具或生成图像,成本高且泛化性差。
  2. Mull-Tokens是一种模态无关的潜在token,通过预训练学习图像和文本的中间信息。
  3. 实验表明,Mull-Tokens在空间推理任务上显著优于现有基线,平均提升3%。

📝 摘要(中文)

现有的多模态模型在图像推理方面存在局限性,依赖于专业工具、昂贵的图像生成或手工设计的推理数据,难以扩展。为了解决这个问题,我们提出了一种更简单的替代方案——Mull-Tokens,这是一种模态无关的潜在tokens,经过预训练,可以在图像或文本模态中保存中间信息,使模型能够自由地思考并得出正确的答案。我们研究了受潜在推理框架启发的Mull-Tokens训练的最佳实践。我们首先使用交错的文本-图像轨迹的监督来训练Mull-Tokens,然后仅使用最终答案进行微调,无需任何监督。在四个具有挑战性的空间推理基准测试中,包括解决难题和采取不同视角等任务,我们证明了Mull-Tokens优于几种仅使用文本推理或交错图像-文本推理的基线,与我们最强的基线相比,平均提高了+3%,在解决难题的推理密集型分割上提高了高达+16%。Mull-Tokens为文本和视觉推理中的挑战提供了一个简单的解决方案,可以抽象地进行多模态思考。

🔬 方法详解

问题定义:现有方法在多模态推理任务中,特别是涉及空间推理、解决谜题和视角转换等任务时,往往依赖于调用外部的专业工具,或者需要生成大量的图像数据,这导致了计算成本高昂,并且模型的泛化能力受到限制。此外,一些方法依赖于手工设计的推理数据,这使得模型难以适应新的场景和任务。因此,如何设计一种高效且通用的多模态推理方法是一个关键问题。

核心思路:论文的核心思路是引入一种模态无关的潜在tokens,即Mull-Tokens。这些tokens被设计成能够同时表示图像和文本的信息,从而允许模型在不同的模态之间自由地切换和思考。通过预训练,Mull-Tokens可以学习到图像和文本的中间表示,从而帮助模型更好地理解和推理多模态数据。这种方法的关键在于将图像和文本的信息抽象成一种通用的表示形式,从而避免了对特定模态的依赖。

技术框架:Mull-Tokens的训练分为两个阶段。第一阶段是预训练阶段,使用交错的文本-图像轨迹进行监督训练。在这个阶段,模型学习将图像和文本的信息编码到Mull-Tokens中。第二阶段是微调阶段,仅使用最终答案进行微调,无需任何监督。在这个阶段,模型学习如何使用Mull-Tokens进行推理,并得出正确的答案。整个框架的关键在于Mull-Tokens的设计和训练方法,以及如何有效地利用这些tokens进行推理。

关键创新:该论文最重要的技术创新点在于提出了Mull-Tokens这种模态无关的潜在tokens。与现有方法相比,Mull-Tokens不需要调用外部工具或生成图像,也不需要手工设计的推理数据。它通过学习图像和文本的中间表示,实现了高效且通用的多模态推理。这种方法的本质区别在于它将图像和文本的信息抽象成一种通用的表示形式,从而避免了对特定模态的依赖。

关键设计:Mull-Tokens的具体实现细节未知,论文中没有详细描述其网络结构、损失函数和参数设置。但根据摘要描述,Mull-Tokens的训练受到潜在推理框架的启发,并且使用了交错的文本-图像轨迹进行监督训练。此外,论文还强调了微调阶段的重要性,该阶段仅使用最终答案进行微调,无需任何监督。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Mull-Tokens在四个具有挑战性的空间推理基准测试中,优于几种仅使用文本推理或交错图像-文本推理的基线。与最强的基线相比,平均提高了+3%,在解决难题的推理密集型分割上提高了高达+16%。这些结果表明,Mull-Tokens能够有效地学习图像和文本的中间表示,并利用这些表示进行推理。

🎯 应用场景

Mull-Tokens具有广泛的应用前景,例如在机器人导航、智能助手、游戏AI等领域。它可以帮助机器人理解环境中的视觉信息和人类的指令,从而实现更智能的交互。在智能助手中,Mull-Tokens可以用于处理用户的多模态查询,例如“帮我找到一张桌子上放着苹果的图片”。在游戏AI中,Mull-Tokens可以用于让AI角色更好地理解游戏环境和玩家的行为,从而实现更逼真的游戏体验。

📄 摘要(原文)

Reasoning goes beyond language; the real world requires reasoning about space, time, affordances, and much more that words alone cannot convey. Existing multimodal models exploring the potential of reasoning with images are brittle and do not scale. They rely on calling specialist tools, costly generation of images, or handcrafted reasoning data to switch between text and image thoughts. Instead, we offer a simpler alternative -- Mull-Tokens -- modality-agnostic latent tokens pre-trained to hold intermediate information in either image or text modalities to let the model think free-form towards the correct answer. We investigate best practices to train Mull-Tokens inspired by latent reasoning frameworks. We first train Mull-Tokens using supervision from interleaved text-image traces, and then fine-tune without any supervision by only using the final answers. Across four challenging spatial reasoning benchmarks involving tasks such as solving puzzles and taking different perspectives, we demonstrate that Mull-Tokens improve upon several baselines utilizing text-only reasoning or interleaved image-text reasoning, achieving a +3% average improvement and up to +16% on a puzzle solving reasoning-heavy split compared to our strongest baseline. Adding to conversations around challenges in grounding textual and visual reasoning, Mull-Tokens offers a simple solution to abstractly think in multiple modalities.