Multimodal Latent Reasoning via Predictive Embeddings
作者: Ashutosh Adhikari, Mirella Lapata
分类: cs.LG
发布日期: 2026-04-09
💡 一句话要点
提出Pearl,通过预测嵌入对齐实现多模态隐空间推理,无需显式工具调用。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态推理 隐空间学习 预测嵌入 工具增强 视觉语言模型
📋 核心要点
- 现有工具增强的多模态推理方法存在推理开销大、需要专门监督以及容易产生错误工具调用的问题。
- Pearl通过在隐空间中学习预测嵌入,避免了推理时显式调用工具,从而降低了计算成本并提高了效率。
- 实验结果表明,Pearl在多个感知基准上与标准监督微调和基于重构的隐空间推理方法相比,性能相当甚至更优。
📝 摘要(中文)
本文提出Pearl(Predictive Embedding Alignment for Reasoning in Latent space),一个受JEPA启发的框架,它完全在隐空间中学习来自专家工具使用轨迹的知识,从而消除了推理时显式工具调用的需求。与基于重构的隐空间推理方法不同,Pearl直接从多模态轨迹中学习预测嵌入,同时保留了标准的视觉-语言生成流程。Pearl是模型无关的,易于训练,并且自然地支持具有多个工具调用的轨迹。在多个感知基准上的实验表明,Pearl的性能与标准监督微调和基于重构的隐空间推理方法相匹配或超过。此外,我们提供的经验证据表明,基于重构的方法主要学习隐空间中的嵌入而不是图像编辑,这促使我们将预测嵌入学习作为一种更有效的替代方案。
🔬 方法详解
问题定义:现有的工具增强型视觉语言模型(VLMs)在进行多模态推理时,依赖于显式地调用外部工具(例如,图像裁剪、深度估计)。这种方法的主要痛点在于:1) 推理开销大,因为需要运行额外的工具;2) 需要专门的监督信号来训练工具调用策略;3) 容易出现错误的工具调用,导致性能下降。因此,如何在不显式调用工具的情况下,利用工具的知识来提升VLMs的推理能力是一个关键问题。
核心思路:Pearl的核心思路是在隐空间中学习工具的使用方式,而不是在像素空间中直接操作图像。具体来说,Pearl学习从多模态输入(例如,图像和文本)到工具使用轨迹的预测嵌入。通过这种方式,模型可以在推理时直接预测工具应该如何使用,而无需实际调用这些工具。这种方法借鉴了JEPA的思想,即通过预测学习表征,而不是通过重构。
技术框架:Pearl的技术框架主要包括以下几个阶段:1) 多模态编码器:用于将图像和文本输入编码成隐空间中的向量表示。2) 工具使用轨迹编码器:用于将专家提供的工具使用轨迹编码成隐空间中的向量表示。3) 预测模块:用于预测给定多模态输入,应该使用的工具轨迹的嵌入表示。4) 对齐模块:使用对比学习损失,将预测的工具轨迹嵌入与真实的工具轨迹嵌入对齐。在推理阶段,模型只需要使用多模态编码器和预测模块,即可生成最终的输出,无需显式调用工具。
关键创新:Pearl最重要的技术创新在于它提出了一种基于预测嵌入的隐空间推理方法,避免了显式工具调用。与传统的基于重构的隐空间推理方法相比,Pearl具有以下优势:1) 避免了训练-推理不匹配的问题,因为模型在训练和推理时都只需要预测嵌入;2) 天然地支持多步工具使用,因为模型可以预测整个工具使用轨迹的嵌入表示;3) 模型无关,可以很容易地集成到现有的视觉-语言模型中。
关键设计:Pearl的关键设计包括:1) 使用对比学习损失来对齐预测的工具轨迹嵌入和真实的工具轨迹嵌入。具体的损失函数可以选择InfoNCE等。2) 工具使用轨迹的表示方式。论文中可能使用了某种序列模型(例如,Transformer)来编码工具使用轨迹。3) 多模态编码器的选择。可以使用预训练的视觉-语言模型(例如,CLIP)作为多模态编码器。
🖼️ 关键图片
📊 实验亮点
Pearl在多个感知基准上取得了与标准监督微调和基于重构的隐空间推理方法相媲美甚至更优的性能。实验结果表明,Pearl能够有效地学习工具的使用方式,并在没有显式工具调用的情况下,提升模型的推理能力。此外,论文还通过实验证明,基于重构的方法主要学习隐空间中的嵌入,而不是图像编辑,从而验证了预测嵌入学习的有效性。
🎯 应用场景
Pearl具有广泛的应用前景,例如可以应用于视觉问答、图像编辑、机器人控制等领域。通过学习工具的使用方式,Pearl可以使模型在没有显式工具调用的情况下,更好地理解图像和文本,并生成更准确的答案或执行更复杂的任务。此外,Pearl还可以用于自动化工具使用策略的学习,从而降低人工标注的成本。
📄 摘要(原文)
Tool-augmented multimodal reasoning enables visual language models (VLMs) to improve perception by interacting with external tools (e.g., cropping, depth estimation). However, such approaches incur substantial inference overhead, require specialized supervision, and are prone to erroneous tool calls. We propose Pearl (Predictive Embedding Alignment for Reasoning in Latent space), a JEPA-inspired framework that learns from expert tool-use trajectories entirely in the latent space, eliminating the need for explicit tool invocation at inference time. Unlike reconstruction-based latent reasoning methods, which autoregressively generate latent tokens and suffer from training-inference mismatch and limited support for multi-step tool use, Pearl directly learns predictive embeddings from multimodal trajectories while preserving the standard vision-language generation pipeline: it is model-agnostic, simple to train, and naturally supports trajectories with multiple tool calls. Experiments across multiple perception benchmarks show that Pearl matches or outperforms standard supervised fine-tuning and reconstruction-based latent reasoning approaches. Furthermore, we provide empirical evidence that reconstruction-based methods primarily learn embeddings rather than image edits in latent space, motivating predictive embedding learning as a more principled alternative.