AIM: Adaptive Inference of Multi-Modal LLMs via Token Merging and Pruning
作者: Yiwu Zhong, Zhuoming Liu, Yin Li, Liwei Wang
分类: cs.CV, cs.AI, cs.CL
发布日期: 2024-12-04 (更新: 2025-07-29)
备注: Accepted to ICCV 2025
🔗 代码/项目: GITHUB
💡 一句话要点
提出AIM,通过Token合并与剪枝自适应推理多模态LLM,显著降低计算成本。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态LLM 自适应推理 Token合并 Token剪枝 视频理解 图像理解 计算效率 免训练
📋 核心要点
- 多模态LLM依赖大量视觉tokens,计算成本高,限制了其在资源受限场景和长上下文任务中的应用。
- 提出AIM,一种免训练的自适应推理方法,通过token合并与剪枝,在保证性能的同时降低计算量。
- 实验表明,AIM能显著降低计算负载(FLOPs降低7倍),并在长视频理解上优于SOTA方法(MLVU上+4.6)。
📝 摘要(中文)
大型语言模型(LLMs)催生了多模态LLMs,它们对图像和视频等视觉数据具有强大的理解能力。然而,这些模型通常依赖于视觉编码器产生的大量视觉tokens,导致计算需求高昂,限制了它们在资源受限环境和长上下文任务中的应用。本文提出了一种免训练的自适应推理方法,用于多模态LLMs,该方法能够以最小的性能损失适应各种效率需求。我们的方法包括:a) 在LLMs之前,基于嵌入相似度进行迭代的token合并;b) 在LLM层内,基于多模态重要性进行渐进的token剪枝。凭借极简的设计,我们的方法可以应用于视频和图像LLMs。在各种视频和图像基准上的大量实验表明,我们的方法在保持视频和图像LLMs性能的同时,显著降低了计算负载(例如,FLOPs降低了$ extbf{7倍}$)。此外,在相似的计算成本下,我们的方法在长视频理解方面优于最先进的方法(例如,在MLVU上$ extbf{+4.6}$)。此外,我们的深入分析提供了关于token冗余和LLM层行为的见解,为未来设计高效多模态LLMs的研究提供了指导。我们的代码可在https://github.com/LaVi-Lab/AIM获得。
🔬 方法详解
问题定义:现有的多模态LLM在处理视觉信息时,依赖于视觉编码器产生的大量tokens,这导致了极高的计算成本,尤其是在处理长视频或在资源受限的设备上部署时,效率低下。现有方法难以在性能和效率之间取得平衡,无法根据不同的计算资源进行自适应调整。
核心思路:本文的核心思路是通过减少输入LLM的token数量来降低计算成本,同时尽可能保持模型的性能。具体来说,通过在LLM之前合并相似的tokens,以及在LLM内部逐步剪枝不重要的tokens,从而实现自适应的推理。这种设计旨在减少冗余计算,并专注于对最终结果影响最大的tokens。
技术框架:AIM方法包含两个主要阶段:1) 迭代Token合并:在视觉编码器输出的tokens输入LLM之前,基于tokens的嵌入相似度进行迭代合并。相似度高的tokens会被合并成一个token,从而减少tokens的总数。2) 渐进Token剪枝:在LLM的每一层中,根据tokens的多模态重要性进行剪枝。重要性低的tokens会被移除,从而减少每一层的计算量。这两个阶段可以独立或联合使用,以达到不同的效率目标。
关键创新:AIM的关键创新在于其免训练的自适应推理机制。与需要重新训练或微调的方法不同,AIM可以直接应用于现有的多模态LLM,无需额外的训练数据或计算资源。此外,AIM同时考虑了token的相似性和重要性,从而更有效地减少了计算量,同时保持了模型的性能。
关键设计:在Token合并阶段,使用余弦相似度来衡量tokens之间的相似性,并设置一个阈值来控制合并的程度。在Token剪枝阶段,使用一个多模态重要性评分函数来评估每个token的重要性,该函数考虑了token在视觉和语言模态中的贡献。具体来说,重要性评分可能基于token的梯度、注意力权重或其他相关指标。剪枝比例可以根据计算资源和性能需求进行调整。
🖼️ 关键图片
📊 实验亮点
实验结果表明,AIM能够在显著降低计算负载的同时,保持甚至提升多模态LLM的性能。例如,在视频理解任务中,AIM能够将FLOPs降低7倍,同时在MLVU基准上取得+4.6的性能提升,超过了现有的SOTA方法。这些结果验证了AIM在效率和性能方面的优越性。
🎯 应用场景
该研究成果可广泛应用于需要高效多模态理解的场景,例如移动设备上的视频分析、低带宽环境下的视频流处理、以及需要处理长视频内容的应用。通过降低计算成本,AIM使得多模态LLM能够在资源受限的环境中部署,并能够处理更长的上下文信息,从而提升用户体验和应用范围。
📄 摘要(原文)
Large language models (LLMs) have enabled the creation of multi-modal LLMs that exhibit strong comprehension of visual data such as images and videos. However, these models usually rely on extensive visual tokens from visual encoders, leading to high computational demands, which limits their applicability in resource-constrained environments and for long-context tasks. In this work, we propose a training-free adaptive inference method for multi-modal LLMs that can accommodate a broad range of efficiency requirements with a minimum performance drop. Our method consists of a) iterative token merging based on embedding similarity before LLMs, and b) progressive token pruning within LLM layers based on multi-modal importance. With a minimalist design, our method can be applied to both video and image LLMs. Extensive experiments on diverse video and image benchmarks demonstrate that our method substantially reduces computation load (e.g., a $\textbf{7-fold}$ reduction in FLOPs) while preserving the performance of video and image LLMs. Further, at a similar computational cost, our method outperforms the state-of-the-art methods in long video understanding (e.g., $\textbf{+4.6}$ on MLVU). Additionally, our in-depth analysis provides insights into token redundancy and LLM layer behaviors, offering guidance for future research in designing efficient multi-modal LLMs. Our code is available at https://github.com/LaVi-Lab/AIM.