G$^2$TR: Generation-Guided Visual Token Reduction for Separate-Encoder Unified Multimodal Models
作者: Junxian Li, Kai Liu, Zizhong Ding, Zhixin Wang, Zhikai Chen, Renjing Pei, Yulun Zhang
分类: cs.CV
发布日期: 2026-05-12
备注: Code is at: https://github.com/lijunxian111/G2TR
💡 一句话要点
提出G$^2$TR,通过生成引导的视觉token缩减,提升分离编码器统一多模态模型的推理效率。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态模型 视觉Token缩减 生成引导 统一模型 图像编辑
📋 核心要点
- 分离编码器UMMs由于视觉token处理密集,推理成本高昂,现有token缩减方法侧重判别推理,忽略了UMMs的图像编辑能力。
- G$^2$TR利用生成分支提供任务无关信号,识别对语义相关且对图像重建/生成重要的视觉token,指导token缩减。
- G$^2$TR无需训练,即插即用,在图像理解和编辑任务上,显著减少计算量,同时保持了推理精度和编辑质量。
📝 摘要(中文)
本文关注于理解侧的视觉token缩减,旨在提升分离编码器统一多模态模型(UMMs)的效率,因为密集视觉token处理导致推理成本迅速增长。现有方法通常依赖于注意力分数、文本-图像相似性等,隐式地假设最终目标是判别推理,这对于UMMs并不成立,因为理解侧的视觉token还必须保留模型编辑图像的能力。因此,我们提出了G$^2$TR,一个用于分离编码器UMMs的生成引导的视觉token缩减框架。核心思想是,生成分支提供了一个任务无关的信号,用于识别理解侧的视觉token,这些token不仅在语义上相关,而且对于潜在空间图像重建和生成也很重要。G$^2$TR从与VAE潜在变量的一致性估计token重要性,执行平衡的token选择,并将冗余token合并到保留的代表中,以减少信息损失。该方法是免训练的、即插即用的,并且仅在理解编码阶段之后应用,使其与现有的UMM推理流程兼容。在图像理解和编辑基准上的实验表明,G$^2$TR在保持推理精度和编辑质量的同时,显著减少了视觉token和预填充计算量,达到1.94倍,优于几乎所有基准上的基线。
🔬 方法详解
问题定义:论文旨在解决分离编码器统一多模态模型(UMMs)中,由于视觉token数量过多导致的推理效率低下的问题。现有视觉token缩减方法主要针对判别任务,例如视觉问答,它们依赖于注意力机制或文本-图像相似度来选择token,忽略了UMMs同时需要支持图像编辑等生成任务的需求。这些方法无法保证缩减后的token集合能够保留足够的图像信息,以支持高质量的图像编辑。
核心思路:论文的核心思路是利用UMMs中的生成分支来指导视觉token的缩减。作者认为,生成分支能够提供一个任务无关的信号,指示哪些视觉token对于图像的重建和生成至关重要。通过保留对生成任务有重要贡献的token,可以确保缩减后的token集合既能支持判别任务,又能支持生成任务,从而在提高推理效率的同时,保持UMMs的整体性能。
技术框架:G$^2$TR框架主要包含三个阶段:1) Token重要性估计:利用VAE的潜在空间,计算每个视觉token与潜在变量的一致性,作为token重要性的度量。2) 平衡Token选择:根据token的重要性得分,进行平衡的token选择,确保保留的token在图像的不同区域都有代表性。3) 冗余Token合并:将冗余的token合并到保留的代表性token中,以进一步减少token数量,同时减少信息损失。
关键创新:G$^2$TR的关键创新在于利用生成分支的信息来指导视觉token的缩减。与现有方法不同,G$^2$TR不依赖于判别任务的信号,而是利用生成任务的信号来评估token的重要性。这种方法能够更好地适应UMMs同时支持判别和生成任务的需求。此外,G$^2$TR是一种免训练的、即插即用的方法,可以方便地集成到现有的UMM推理流程中。
关键设计:在Token重要性估计阶段,论文使用VAE的潜在变量作为参考,计算每个视觉token与潜在变量之间的余弦相似度,作为token重要性的度量。在平衡Token选择阶段,论文采用了一种基于区域的采样策略,确保保留的token在图像的不同区域都有代表性。在冗余Token合并阶段,论文使用K-means聚类算法将冗余的token聚类到保留的代表性token中。
🖼️ 关键图片
📊 实验亮点
实验结果表明,G$^2$TR在图像理解和编辑任务上均取得了显著的性能提升。在保持推理精度和编辑质量的同时,G$^2$TR能够将视觉token数量和预填充计算量减少1.94倍,并且在几乎所有基准测试中都优于现有基线方法。这证明了G$^2$TR在提高UMMs推理效率方面的有效性。
🎯 应用场景
该研究成果可广泛应用于需要高效多模态理解与生成的场景,例如智能图像编辑、视觉内容创作、机器人视觉导航等。通过降低视觉token处理的计算成本,可以提升UMMs在资源受限设备上的部署能力,加速多模态人工智能技术的普及。
📄 摘要(原文)
The development of separate-encoder Unified multimodal models (UMMs) comes with a rapidly growing inference cost due to dense visual token processing. In this paper, we focus on understanding-side visual token reduction for improving the efficiency of separate-encoder UMMs. While this topic has been widely studied for MLLMs, existing methods typically rely on attention scores, text-image similarity and so on, implicitly assuming that the final objective is discriminative reasoning. This assumption does not hold for UMMs, where understanding-side visual tokens must also preserve the model's capabilities for editing images. We propose G$^2$TR, a generation-guided visual token reduction framework for separate-encoder UMMs. Our key insight is that the generation branch provides a task-agnostic signal for identifying understanding-side visual tokens that are not only semantically relevant but also important for latent-space image reconstruction and generation. G$^2$TR estimates token importance from consistency with VAE latent, performs balanced token selection, and merges redundant tokens into retained representatives to reduce information loss. The method is training-free, plug-and-play, and applied only after the understanding encoding stage, making it compatible with existing UMM inference pipelines. Experiments on image understanding and editing benchmarks show that G$^2$TR substantially reduces visual tokens and prefill computation by 1.94x while maintaining both reasoning accuracy and editing quality, outperforming baselines on almost all benchmarks.