TrimTokenator-LC: Towards Adaptive Visual Token Pruning for Large Multimodal Models with Long Contexts
作者: Hao Zhang, Mengsi Lyu, Bo Huang, Yulong Ao, Yonghua Lin
分类: cs.CV
发布日期: 2025-12-28 (更新: 2025-12-31)
备注: 17 pages
💡 一句话要点
TrimTokenator-LC:针对长上下文大模型,提出自适应视觉Token剪枝方法
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉Token剪枝 长上下文 多模态模型 自适应预算分配 图像内多样性
📋 核心要点
- 现有视觉Token剪枝方法在处理长上下文、多图像输入时存在不足,忽略了图像内和图像间冗余。
- 提出TrimTokenator-LC,通过图像内多样性和图像间变异来指导动态预算分配,实现自适应Token剪枝。
- 实验结果表明,该方法能够在长上下文场景下减少高达80%的视觉Token,同时保持模型性能。
📝 摘要(中文)
大型多模态模型(LMMs)在各种任务中表现出有效性。它们通常将视觉输入编码成原始模型token序列,然后与文本token连接,并由语言模型联合处理。然而,不断增长的视觉token数量大大增加了推理成本。视觉token剪枝已成为一种有前景的解决方案。然而,现有方法通常忽略涉及具有多个图像的长上下文输入的情况。在本文中,我们分析了长上下文、多图像设置中视觉token剪枝的挑战,并提出了一种针对此类场景的自适应剪枝方法。我们将冗余分解为图像内和图像间成分,并通过图像内多样性和图像间变异来量化它们,这共同指导动态预算分配。我们的方法包括两个阶段。图像内阶段为每个图像分配一个内容感知的token预算,并贪婪地选择其最具代表性的token。图像间阶段执行全局多样性过滤以形成候选池,然后应用Pareto选择程序,以平衡多样性与文本对齐。大量实验表明,我们的方法可以在长上下文设置中减少高达80%的视觉token,同时保持性能。
🔬 方法详解
问题定义:现有的大型多模态模型在处理长上下文、多图像输入时,由于视觉Token数量庞大,导致推理成本显著增加。现有的视觉Token剪枝方法通常没有充分考虑图像内部和图像之间的冗余信息,无法有效地进行Token选择,尤其是在多图像场景下,容易丢失关键信息,影响模型性能。
核心思路:TrimTokenator-LC的核心思路是将视觉Token的冗余分解为图像内冗余和图像间冗余,并分别进行处理。通过量化图像内的多样性和图像间的变异性,动态地为每个图像分配Token预算。这种自适应的预算分配策略能够更好地保留关键信息,同时减少冗余Token,从而在降低计算成本的同时保持模型性能。
技术框架:TrimTokenator-LC包含两个主要阶段:图像内Token选择和图像间Token选择。在图像内阶段,首先为每个图像分配一个内容感知的Token预算,然后使用贪婪算法选择最具代表性的Token。在图像间阶段,首先进行全局多样性过滤,形成一个候选Token池,然后应用Pareto选择程序,平衡Token的多样性和与文本的对齐程度。
关键创新:该方法最重要的创新点在于其自适应的Token预算分配策略。通过量化图像内多样性和图像间变异性,能够动态地调整每个图像的Token数量,从而更好地适应不同的输入场景。与现有方法相比,TrimTokenator-LC能够更有效地减少冗余Token,同时保留关键信息,从而在长上下文、多图像场景下取得更好的性能。
关键设计:图像内多样性通过计算图像中不同区域特征的差异来衡量。图像间变异性通过计算不同图像特征之间的差异来衡量。Pareto选择程序使用一个目标函数,同时考虑Token的多样性和与文本的对齐程度,选择最优的Token子集。具体的损失函数和网络结构细节在论文中未明确给出,属于未知信息。
🖼️ 关键图片
📊 实验亮点
实验结果表明,TrimTokenator-LC能够在长上下文设置中减少高达80%的视觉Token,同时保持模型性能。在多个基准测试中,该方法优于现有的视觉Token剪枝方法,证明了其在长上下文、多图像场景下的有效性。具体的性能数据和对比基线在论文中未详细给出,属于未知信息。
🎯 应用场景
该研究成果可应用于各种需要处理长上下文、多图像输入的场景,例如视频理解、医学图像分析、遥感图像处理等。通过减少视觉Token的数量,可以显著降低计算成本,提高推理速度,从而使得大型多模态模型能够更高效地应用于实际场景中。未来,该方法还可以扩展到其他模态的数据压缩和加速。
📄 摘要(原文)
Large Multimodal Models (LMMs) have proven effective on various tasks. They typically encode visual inputs into Original Model sequences of tokens, which are then concatenated with textual tokens and jointly processed by the language model. However, the growing number of visual tokens greatly increases inference cost. Visual token pruning has emerged as a promising solution. However, existing methods often overlook scenarios involving long context inputs with multiple images. In this paper, we analyze the challenges of visual token pruning in long context, multi-image settings and introduce an adaptive pruning method tailored for such scenarios. We decompose redundancy into intra-image and inter-image components and quantify them through intra-image diversity and inter-image variation, which jointly guide dynamic budget allocation. Our approach consists of two stages. The intra-image stage allocates each image a content-aware token budget and greedily selects its most representative tokens. The inter-image stage performs global diversity filtering to form a candidate pool and then applies a Pareto selection procedure that balances diversity with text alignment. Extensive experiments show that our approach can reduce up to 80% of visual tokens while maintaining performance in long context settings.