G$^2$TR: Generation-Guided Visual Token Reduction for Separate-Encoder Unified Multimodal Models

作者: Junxian Li, Kai Liu, Zizhong Ding, Zhixin Wang, Zhikai Chen, Renjing Pei, Yulun Zhang

分类: cs.CV

发布日期: 2026-05-12

备注: Code is at: https://github.com/lijunxian111/G2TR

💡 一句话要点

提出G$^2$TR，通过生成引导的视觉token缩减，提升分离编码器统一多模态模型的推理效率。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态模型 视觉Token缩减 生成引导 统一模型 图像编辑

📋 核心要点

分离编码器UMMs由于视觉token处理密集，推理成本高昂，现有token缩减方法侧重判别推理，忽略了UMMs的图像编辑能力。
G$^2$TR利用生成分支提供任务无关信号，识别对语义相关且对图像重建/生成重要的视觉token，指导token缩减。
G$^2$TR无需训练，即插即用，在图像理解和编辑任务上，显著减少计算量，同时保持了推理精度和编辑质量。

📝 摘要（中文）

本文关注于理解侧的视觉token缩减，旨在提升分离编码器统一多模态模型(UMMs)的效率，因为密集视觉token处理导致推理成本迅速增长。现有方法通常依赖于注意力分数、文本-图像相似性等，隐式地假设最终目标是判别推理，这对于UMMs并不成立，因为理解侧的视觉token还必须保留模型编辑图像的能力。因此，我们提出了G$^2$TR，一个用于分离编码器UMMs的生成引导的视觉token缩减框架。核心思想是，生成分支提供了一个任务无关的信号，用于识别理解侧的视觉token，这些token不仅在语义上相关，而且对于潜在空间图像重建和生成也很重要。G$^2$TR从与VAE潜在变量的一致性估计token重要性，执行平衡的token选择，并将冗余token合并到保留的代表中，以减少信息损失。该方法是免训练的、即插即用的，并且仅在理解编码阶段之后应用，使其与现有的UMM推理流程兼容。在图像理解和编辑基准上的实验表明，G$^2$TR在保持推理精度和编辑质量的同时，显著减少了视觉token和预填充计算量，达到1.94倍，优于几乎所有基准上的基线。

🔬 方法详解

问题定义：论文旨在解决分离编码器统一多模态模型（UMMs）中，由于视觉token数量过多导致的推理效率低下的问题。现有视觉token缩减方法主要针对判别任务，例如视觉问答，它们依赖于注意力机制或文本-图像相似度来选择token，忽略了UMMs同时需要支持图像编辑等生成任务的需求。这些方法无法保证缩减后的token集合能够保留足够的图像信息，以支持高质量的图像编辑。

核心思路：论文的核心思路是利用UMMs中的生成分支来指导视觉token的缩减。作者认为，生成分支能够提供一个任务无关的信号，指示哪些视觉token对于图像的重建和生成至关重要。通过保留对生成任务有重要贡献的token，可以确保缩减后的token集合既能支持判别任务，又能支持生成任务，从而在提高推理效率的同时，保持UMMs的整体性能。

技术框架：G$^2$TR框架主要包含三个阶段：1) Token重要性估计：利用VAE的潜在空间，计算每个视觉token与潜在变量的一致性，作为token重要性的度量。2) 平衡Token选择：根据token的重要性得分，进行平衡的token选择，确保保留的token在图像的不同区域都有代表性。3) 冗余Token合并：将冗余的token合并到保留的代表性token中，以进一步减少token数量，同时减少信息损失。

关键创新：G$^2$TR的关键创新在于利用生成分支的信息来指导视觉token的缩减。与现有方法不同，G$^2$TR不依赖于判别任务的信号，而是利用生成任务的信号来评估token的重要性。这种方法能够更好地适应UMMs同时支持判别和生成任务的需求。此外，G$^2$TR是一种免训练的、即插即用的方法，可以方便地集成到现有的UMM推理流程中。

关键设计：在Token重要性估计阶段，论文使用VAE的潜在变量作为参考，计算每个视觉token与潜在变量之间的余弦相似度，作为token重要性的度量。在平衡Token选择阶段，论文采用了一种基于区域的采样策略，确保保留的token在图像的不同区域都有代表性。在冗余Token合并阶段，论文使用K-means聚类算法将冗余的token聚类到保留的代表性token中。

🖼️ 关键图片

📊 实验亮点

实验结果表明，G$^2$TR在图像理解和编辑任务上均取得了显著的性能提升。在保持推理精度和编辑质量的同时，G$^2$TR能够将视觉token数量和预填充计算量减少1.94倍，并且在几乎所有基准测试中都优于现有基线方法。这证明了G$^2$TR在提高UMMs推理效率方面的有效性。

🎯 应用场景

该研究成果可广泛应用于需要高效多模态理解与生成的场景，例如智能图像编辑、视觉内容创作、机器人视觉导航等。通过降低视觉token处理的计算成本，可以提升UMMs在资源受限设备上的部署能力，加速多模态人工智能技术的普及。

📄 摘要（原文）

The development of separate-encoder Unified multimodal models (UMMs) comes with a rapidly growing inference cost due to dense visual token processing. In this paper, we focus on understanding-side visual token reduction for improving the efficiency of separate-encoder UMMs. While this topic has been widely studied for MLLMs, existing methods typically rely on attention scores, text-image similarity and so on, implicitly assuming that the final objective is discriminative reasoning. This assumption does not hold for UMMs, where understanding-side visual tokens must also preserve the model's capabilities for editing images. We propose G$^2$TR, a generation-guided visual token reduction framework for separate-encoder UMMs. Our key insight is that the generation branch provides a task-agnostic signal for identifying understanding-side visual tokens that are not only semantically relevant but also important for latent-space image reconstruction and generation. G$^2$TR estimates token importance from consistency with VAE latent, performs balanced token selection, and merges redundant tokens into retained representatives to reduce information loss. The method is training-free, plug-and-play, and applied only after the understanding encoding stage, making it compatible with existing UMM inference pipelines. Experiments on image understanding and editing benchmarks show that G$^2$TR substantially reduces visual tokens and prefill computation by 1.94x while maintaining both reasoning accuracy and editing quality, outperforming baselines on almost all benchmarks.

G$^2$TR: Generation-Guided Visual Token Reduction for Separate-Encoder Unified Multimodal Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理