MSJoE: Jointly Evolving MLLM and Sampler for Efficient Long-Form Video Understanding

📄 arXiv: 2602.22932 📥 PDF

作者: Wenhui Tan, Xiaoyi Yu, Jiaze Li, Yijing Chen, Jianzhong Ju, Zhenbo Luo, Ruihua Song, Jian Luan

分类: cs.CV

发布日期: 2026-02-28


💡 一句话要点

提出MSJoE,联合优化MLLM和采样器,高效理解长视频

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 长视频理解 多模态大语言模型 关键帧采样 强化学习 联合优化 视频问答 查询推理

📋 核心要点

  1. 多模态大语言模型在长视频理解方面面临效率挑战,需要从大量帧中提取关键信息。
  2. MSJoE通过联合优化MLLM和轻量级采样器,使模型能够自适应地选择信息量大的关键帧。
  3. 实验表明,MSJoE在多个长视频理解基准测试中显著提升了准确率,优于现有方法。

📝 摘要(中文)

本文提出了一种名为MLLM-Sampler联合进化(MSJoE)的新框架,用于高效理解长视频,该框架联合进化多模态大型语言模型(MLLM)和一个轻量级的关键帧采样器。MSJoE基于一个关键假设:对于视频的每个问题,只有一小部分关键帧是真正有用的。具体来说,MSJoE首先推理出几个查询,这些查询描述了与问题相关的不同视觉视角。然后,这些查询与一个冻结的CLIP模型交互,生成一个查询-帧相似度矩阵。最后,一个轻量级的采样器从该矩阵中预测关键帧采样权重,选择一组紧凑的信息帧,然后将其输入到MLLM中以生成答案。MLLM和采样器都通过强化学习进行联合优化,从而实现查询推理、帧采样和关键帧理解的协同适应。我们收集了一个包含2.8K个视频和7K个问答对的新长视频QA数据集,以支持训练过程。在VideoMME、LongVideoBench、LVBench和MLVU上的大量实验表明,MSJoE比基础MLLM提高了8.0%的准确率,并且比最强的基线方法高出1.1%的准确率。

🔬 方法详解

问题定义:现有方法在处理长视频理解任务时,通常需要处理大量的视频帧,计算成本高昂,效率低下。此外,并非所有帧都包含回答问题所需的信息,因此需要一种有效的方法来选择关键帧。

核心思路:MSJoE的核心思路是联合优化多模态大语言模型(MLLM)和一个轻量级的关键帧采样器。通过强化学习,使MLLM能够更好地利用采样器选择的关键帧,同时使采样器能够更好地选择对MLLM有用的帧。这种协同优化能够提高长视频理解的效率和准确性。

技术框架:MSJoE框架包含以下几个主要模块:1) 查询推理模块:根据问题生成多个查询,描述与问题相关的不同视觉视角。2) 相似度计算模块:使用冻结的CLIP模型计算查询与视频帧之间的相似度,生成查询-帧相似度矩阵。3) 关键帧采样模块:一个轻量级的采样器,根据相似度矩阵预测关键帧的采样权重,选择一组信息量大的帧。4) MLLM:接收采样后的关键帧,生成答案。整个框架通过强化学习进行端到端训练。

关键创新:MSJoE的关键创新在于联合优化MLLM和采样器。传统的pipeline方法通常是先训练一个固定的采样器,然后再训练MLLM,而MSJoE通过强化学习使两者能够协同适应,从而获得更好的性能。此外,使用查询推理模块来指导关键帧采样也是一个创新点,能够更好地捕捉与问题相关的视觉信息。

关键设计:采样器是一个轻量级的神经网络,输入是查询-帧相似度矩阵,输出是每个帧的采样权重。强化学习的目标是最大化MLLM的答案准确率,奖励函数基于答案与ground truth之间的相似度。使用了新的长视频QA数据集进行训练,该数据集包含2.8K个视频和7K个问答对。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

MSJoE在VideoMME、LongVideoBench、LVBench和MLVU等多个长视频理解基准测试中取得了显著的性能提升。具体来说,MSJoE比基础MLLM提高了8.0%的准确率,并且比最强的基线方法高出1.1%的准确率。这些结果表明,MSJoE能够有效地选择关键帧,并提高MLLM的长视频理解能力。

🎯 应用场景

MSJoE可应用于智能监控、视频检索、智能客服等领域。例如,在智能监控中,可以快速定位异常事件;在视频检索中,可以根据用户提问快速找到相关片段;在智能客服中,可以理解用户上传的视频并给出相应的解答。该研究有助于提升多模态大语言模型在实际应用中的效率和准确性。

📄 摘要(原文)

Efficiently understanding long-form videos remains a fundamental challenge for multimodal large language models (MLLMs). In this paper, we present MLLM-Sampler Joint Evolution (MSJoE), a novel framework that jointly evolves the MLLM and a lightweight key-frame sampler for efficient long-form video understanding. MSJoE builds upon a key assumption that only a small subset of key-frames is truly informative for answering each question to a video. Specifically, MSJoE first reasons out several queries, which describe diverse visual perspectives relevant to the question. Then, these queries interact with a frozen CLIP model to produce a query-frame similarity matrix. Finally, a lightweight sampler predicts key-frame sampling weights from this matrix, selecting a compact set of informative frames, which are then fed into the MLLM for answer generation. Both the MLLM and sampler are jointly optimized through reinforcement learning, enabling co-adaptation of query-reasoning, frame-sampling, and key-frame understanding. A new long-video QA dataset containing 2.8K videos with 7K question-answer pairs is collected to support the training process. Extensive experiments on VideoMME, LongVideoBench, LVBench, and MLVU show that MSJoE achieves 8.0\% accuracy gain upon the base MLLM, and 1.1\% higher accuracy than strongest baseline method.