Improving Visual Token Reduction via Rectifying Distortions for Efficient Multimodal LLM Inference
作者: Hyeonwoo Cho, DongHyeon Baek, Yewon Kim, Bumsub Ham
分类: cs.CV
发布日期: 2026-06-01
备注: Accepted to ICML 2026
💡 一句话要点
RESTORE:通过校正视觉扭曲提升多模态LLM推理效率
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态大语言模型 视觉Token缩减 注意力机制 信息恢复 表征学习
📋 核心要点
- 现有视觉token缩减方法忽略了缩减前后视觉token的位置和注意力一致性,导致视觉表征扭曲。
- RESTORE框架通过校正位置和注意力扭曲来提升视觉token缩减的性能,同时保持计算效率。
- 实验表明,RESTORE能有效提升现有缩减方法的准确率,并在多个基准测试上达到SOTA性能。
📝 摘要(中文)
多模态大型语言模型(MLLM)在视觉-语言任务中取得了显著进展,但大量视觉token带来的二次计算复杂度导致了显著的内存和延迟瓶颈。虽然已经探索了视觉token缩减(VTR)策略来缓解这一负担,但现有方法忽略了完整序列和缩减序列之间的位置和注意力一致性,导致表示失真。为此,我们提出RESTORE,一种新颖的VTR框架,可在保持效率的同时校正位置和注意力扭曲。具体来说,我们提出了一种简单而有效的校准方法,通过基于相对距离增强注意力权重来恢复丢失的视觉注意力。我们还引入了一种独特的anchor选择用于token合并,以减轻特征平均过程中的信息损失。在多个基准测试上的实验结果表明,我们的方法始终提高各种缩减方法的准确性,在保持计算效率的同时实现最先进的性能。
🔬 方法详解
问题定义:论文旨在解决多模态大语言模型中,由于视觉token数量过多导致的计算复杂度过高,进而产生的内存和延迟瓶颈问题。现有的视觉token缩减方法虽然可以减少token数量,但会忽略缩减前后视觉token的位置和注意力一致性,导致视觉表征扭曲,影响模型性能。
核心思路:论文的核心思路是通过校正视觉token缩减过程中产生的位置和注意力扭曲,来提升缩减后的视觉表征质量。具体来说,通过恢复丢失的视觉注意力以及优化token合并策略,来缓解信息损失,从而提高模型性能。
技术框架:RESTORE框架主要包含两个关键模块:注意力校准模块和anchor选择的token合并模块。注意力校准模块通过基于相对距离增强注意力权重来恢复丢失的视觉注意力。Anchor选择的token合并模块则通过选择更具代表性的token进行合并,以减少信息损失。整体流程是先使用现有的VTR方法进行token缩减,然后使用RESTORE框架进行校正。
关键创新:论文的关键创新在于提出了注意力校准和anchor选择的token合并两种方法,用于校正视觉token缩减过程中产生的位置和注意力扭曲。注意力校准方法通过相对距离来恢复丢失的注意力信息,而anchor选择的token合并方法则通过选择更具代表性的token进行合并来减少信息损失。这两种方法能够有效提升缩减后的视觉表征质量。
关键设计:在注意力校准模块中,使用相对距离作为注意力权重增强的依据,距离越近,增强的权重越大。在anchor选择的token合并模块中,使用聚类算法选择最具代表性的token作为anchor,然后将anchor周围的token合并到anchor中。具体的聚类算法和合并策略可以根据实际情况进行选择。
🖼️ 关键图片
📊 实验亮点
实验结果表明,RESTORE框架能够显著提升现有视觉token缩减方法的性能。例如,在多个基准测试上,RESTORE能够将现有方法的准确率提升1-2个百分点,并在保持计算效率的同时,达到state-of-the-art的性能。这表明RESTORE能够有效校正视觉token缩减过程中产生的扭曲,提升视觉表征质量。
🎯 应用场景
该研究成果可应用于各种需要处理大量视觉信息的场景,例如智能监控、自动驾驶、医疗影像分析等。通过降低视觉token的数量,可以有效减少计算资源消耗,提高推理速度,从而使得多模态大语言模型能够在资源受限的设备上运行,并能够处理更大规模的视觉数据。
📄 摘要(原文)
Recent advancements in Multimodal Large Language Models (MLLMs) have achieved remarkable success in vision-language tasks, yet the quadratic computational complexity arising from the vast number of visual tokens incurs significant memory and latency bottlenecks. While visual token reduction (VTR) strategies have been explored to mitigate this burden, existing methods overlook the positional and attentional consistency between the full and reduced sequences, resulting in a distorted representation. To this end, we propose RESTORE, a novel VTR framework that rectifies the positional and attentional distortions while maintaining efficiency. Specifically, we present a simple yet effective calibration method that restores lost visual attention by augmenting attention weights based on relative distances. We also introduce a distinctive anchor selection for token merging to mitigate information loss during feature averaging. Experimental results on multiple benchmarks demonstrate that our method consistently improves the accuracy of various reduction methods, achieving state-of-the-art performance while maintaining computational efficiency.