Hybrid-Level Instruction Injection for Video Token Compression in Multi-modal Large Language Models

📄 arXiv: 2503.16036v1 📥 PDF

作者: Zhihang Liu, Chen-Wei Xie, Pandeng Li, Liming Zhao, Longxiang Tang, Yun Zheng, Chuanbin Liu, Hongtao Xie

分类: cs.CV, cs.AI, cs.CL

发布日期: 2025-03-20

备注: Accepted to CVPR2025

🔗 代码/项目: GITHUB


💡 一句话要点

提出混合层级指令注入的视频token压缩方法HICom,提升多模态大语言模型视频理解能力。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 视频token压缩 指令注入 条件压缩 视频理解 注意力机制 预训练

📋 核心要点

  1. 现有视频token压缩方法(如平均池化)忽略了用户指令,导致重要视觉信息丢失,影响多模态大语言模型的性能。
  2. HICom通过混合层级指令注入,在局部和全局层面引导token压缩,保留用户关注的信息,减少计算负担。
  3. 实验表明,HICom在减少token数量的同时,显著提升了视频理解能力,并在多个QA基准测试中取得了优异结果。

📝 摘要(中文)

现有的多模态大语言模型(MLLMs)面临着大量视频帧带来的计算开销挑战,通常通过压缩策略来缓解。然而,视觉内容对用户指令的贡献并不相同,现有的策略(例如,平均池化)不可避免地导致潜在有用信息的丢失。为了解决这个问题,我们提出了一种混合层级指令注入策略(HICom),用于MLLMs中的条件token压缩,利用指令作为条件,从局部和全局层面指导压缩。这鼓励压缩保留最大程度的用户关注信息,同时减少视觉token以最小化计算负担。具体而言,指令条件被注入到局部层面的分组视觉token和全局层面的可学习token中,并且我们进行注意力机制以完成条件压缩。通过混合层级的压缩,与指令相关的视觉部分被突出显示,同时保留了时间-空间结构,以便LLMs更容易理解。为了进一步释放HICom的潜力,我们引入了一个新的条件预训练阶段,并提出了我们的数据集HICom-248K。实验表明,我们的HICom可以用更少的token获得卓越的视频理解能力,在三个多项选择问答基准测试中平均提高了2.43%的性能,并且与SOTA方法相比节省了78.8%的token。

🔬 方法详解

问题定义:多模态大语言模型处理视频时,需要处理大量的视频帧,计算开销巨大。现有的视频token压缩方法,例如平均池化,无法区分视觉内容对用户指令的重要性,导致压缩过程中关键信息的丢失,从而影响模型的视频理解能力。现有方法没有充分利用指令信息来指导视频token的压缩,导致压缩后的视频表示不够有效。

核心思路:HICom的核心思路是利用用户指令作为条件,指导视频token的压缩过程,从而保留与指令相关的关键视觉信息。通过在局部和全局层面注入指令信息,使模型能够区分不同视觉内容的重要性,并有选择性地压缩token,从而在减少计算开销的同时,最大程度地保留用户关注的信息。这种条件压缩的方法能够更好地适应不同的用户需求,提高模型的泛化能力。

技术框架:HICom的技术框架主要包含以下几个模块:1) 局部层级指令注入:将指令信息注入到分组的视觉token中,使模型能够关注局部相关的视觉内容。2) 全局层级指令注入:将指令信息注入到可学习的token中,使模型能够捕捉全局的上下文信息。3) 注意力机制:通过注意力机制,实现条件压缩,突出与指令相关的视觉部分,同时保留时间-空间结构。4) 条件预训练:使用提出的HICom-248K数据集进行条件预训练,进一步提升HICom的性能。

关键创新:HICom的关键创新在于混合层级的指令注入策略。与传统的无条件压缩方法相比,HICom能够根据用户指令动态地调整压缩策略,从而更好地保留关键信息。与仅在单一层面注入指令信息的方法相比,HICom的混合层级注入能够同时捕捉局部和全局的上下文信息,从而更全面地理解视频内容。此外,提出的HICom-248K数据集也为条件预训练提供了有效的数据支持。

关键设计:在局部层级指令注入中,使用了分组卷积来提取局部特征,并通过注意力机制将指令信息融入到局部特征中。在全局层级指令注入中,使用了可学习的token来捕捉全局上下文信息,并通过交叉注意力机制将指令信息融入到全局token中。损失函数方面,使用了交叉熵损失函数来优化模型的分类性能。HICom-248K数据集包含了大量的视频-指令对,用于条件预训练,以提升模型对指令的理解能力。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,HICom在三个多项选择问答基准测试中平均提高了2.43%的性能,并且与SOTA方法相比节省了78.8%的token。这表明HICom能够在显著减少计算开销的同时,有效提升视频理解能力。消融实验也验证了混合层级指令注入策略的有效性。

🎯 应用场景

HICom技术可应用于视频问答、视频摘要、视频编辑等领域。通过减少视频token数量,降低计算成本,使多模态大语言模型能够更高效地处理长视频内容。该技术在智能客服、在线教育、内容审核等场景具有广泛的应用前景,并有望推动视频理解和生成技术的进一步发展。

📄 摘要(原文)

Recent Multi-modal Large Language Models (MLLMs) have been challenged by the computational overhead resulting from massive video frames, often alleviated through compression strategies. However, the visual content is not equally contributed to user instructions, existing strategies (\eg, average pool) inevitably lead to the loss of potentially useful information. To tackle this, we propose the Hybrid-level Instruction Injection Strategy for Conditional Token Compression in MLLMs (HICom), utilizing the instruction as a condition to guide the compression from both local and global levels. This encourages the compression to retain the maximum amount of user-focused information while reducing visual tokens to minimize computational burden. Specifically, the instruction condition is injected into the grouped visual tokens at the local level and the learnable tokens at the global level, and we conduct the attention mechanism to complete the conditional compression. From the hybrid-level compression, the instruction-relevant visual parts are highlighted while the temporal-spatial structure is also preserved for easier understanding of LLMs. To further unleash the potential of HICom, we introduce a new conditional pre-training stage with our proposed dataset HICom-248K. Experiments show that our HICom can obtain distinguished video understanding ability with fewer tokens, increasing the performance by 2.43\% average on three multiple-choice QA benchmarks and saving 78.8\% tokens compared with the SOTA method. The code is available at https://github.com/lntzm/HICom.