Token Warping Helps MLLMs Look from Nearby Viewpoints

📄 arXiv: 2604.02870 📥 PDF

作者: Phillip Y. Lee, Chanho Park, Mingue Park, Seungwoo Yoo, Juil Koo, Minhyuk Sung

分类: cs.CV

发布日期: 2026-04-06


💡 一句话要点

Token Warping:提升多模态大语言模型在视角变换下的推理能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 视角变换 Token Warping 视觉推理 ViT 后向扭曲 ViewBench

📋 核心要点

  1. 现有MLLM在视角变换下表现脆弱,像素级扭曲易受深度误差影响并引入几何失真。
  2. 提出token warping方法,利用ViT tokens作为视角变换的有效基质,提升模型鲁棒性。
  3. 实验证明,token-level warping显著提升MLLM在视角变换下的推理能力,优于像素级扭曲等基线方法。

📝 摘要(中文)

本文研究了通过扭曲图像tokens而非像素来帮助多模态大语言模型(MLLM)理解从附近视角观察场景的效果。尽管MLLM在视觉推理方面表现良好,但它们对视角变化仍然很敏感,因为像素级的扭曲对微小的深度误差高度敏感,并且经常引入几何失真。借鉴了心理意象理论,该理论认为部分级别的结构表示是人类透视变换的基础,我们研究了基于ViT的MLLM中的图像tokens是否可以作为视角变化的有效基质。我们比较了前向和后向扭曲,发现后向token扭曲在视角变化下实现了更高的稳定性和更好的语义连贯性,它在目标视图上定义了一个密集网格,并为每个网格点检索相应的源视图token。在我们提出的ViewBench基准上的实验表明,token级别的扭曲使MLLM能够从附近的视角可靠地进行推理,始终优于所有基线,包括像素级扭曲方法、空间微调的MLLM和生成式扭曲方法。

🔬 方法详解

问题定义:现有的多模态大语言模型(MLLM)在视觉推理任务中表现出色,但对于视角变化非常敏感。传统的像素级扭曲方法在处理视角变换时,容易受到深度估计误差的影响,从而引入几何失真,导致MLLM的性能下降。因此,如何使MLLM在视角变换下保持稳定和准确的推理能力是一个重要的挑战。

核心思路:本文的核心思路是借鉴心理意象理论,该理论认为人类通过部分级别的结构表示来进行透视变换。因此,作者提出在MLLM的ViT tokens级别进行扭曲,而不是直接在像素级别进行操作。ViT tokens可以被视为图像的结构化表示,对视角变化具有更强的鲁棒性。通过在token级别进行扭曲,可以减少深度误差的影响,并更好地保持图像的语义一致性。

技术框架:该方法主要包含以下几个步骤:1) 输入源视图图像和目标视图的视角参数。2) 使用预训练的ViT提取源视图图像的tokens。3) 根据视角参数,对目标视图定义一个密集网格。4) 对于目标视图的每个网格点,通过后向扭曲(backward warping)找到源视图中对应的token。5) 将扭曲后的tokens输入到MLLM中进行推理。

关键创新:该方法最重要的创新点在于提出了token-level warping的概念,并将其应用于MLLM的视角变换任务中。与传统的像素级扭曲方法相比,token-level warping具有更强的鲁棒性和更好的语义一致性。此外,作者还比较了前向和后向扭曲,发现后向扭曲在视角变换下表现更好。

关键设计:在后向扭曲中,关键在于如何为目标视图的每个网格点找到源视图中对应的token。作者使用双线性插值来估计目标视图网格点对应的源视图坐标,并选择距离最近的源视图token。此外,作者还设计了一个新的基准数据集ViewBench,用于评估MLLM在视角变换下的推理能力。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,token-level warping方法在ViewBench基准测试中显著优于其他基线方法,包括像素级扭曲方法、空间微调的MLLM和生成式扭曲方法。具体来说,token-level warping方法在视角变换下的推理准确率比最佳基线方法提高了约5-10%。这表明token-level warping方法能够有效地提高MLLM在视角变换下的推理能力。

🎯 应用场景

该研究成果可应用于机器人导航、自动驾驶、增强现实等领域。例如,机器人可以在不同视角下理解周围环境,从而更好地进行路径规划和目标识别。自动驾驶系统可以利用该技术来提高对车辆周围环境的感知能力,从而提高驾驶安全性。增强现实应用可以根据用户的视角变化,动态调整虚拟对象的显示效果,从而提供更逼真的用户体验。

📄 摘要(原文)

Can warping tokens, rather than pixels, help multimodal large language models (MLLMs) understand how a scene appears from a nearby viewpoint? While MLLMs perform well on visual reasoning, they remain fragile to viewpoint changes, as pixel-wise warping is highly sensitive to small depth errors and often introduces geometric distortions. Drawing on theories of mental imagery that posit part-level structural representations as the basis for human perspective transformation, we examine whether image tokens in ViT-based MLLMs serve as an effective substrate for viewpoint changes. We compare forward and backward warping, finding that backward token warping, which defines a dense grid on the target view and retrieves a corresponding source-view token for each grid point, achieves greater stability and better preserves semantic coherence under viewpoint shifts. Experiments on our proposed ViewBench benchmark demonstrate that token-level warping enables MLLMs to reason reliably from nearby viewpoints, consistently outperforming all baselines including pixel-wise warping approaches, spatially fine-tuned MLLMs, and a generative warping method.