MSJoE: Jointly Evolving MLLM and Sampler for Efficient Long-Form Video Understanding

作者: Wenhui Tan, Xiaoyi Yu, Jiaze Li, Yijing Chen, Jianzhong Ju, Zhenbo Luo, Ruihua Song, Jian Luan

分类: cs.CV

发布日期: 2026-02-28

💡 一句话要点

提出MSJoE，联合优化MLLM和采样器，高效理解长视频

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 长视频理解 多模态大语言模型 关键帧采样 强化学习 联合优化 视频问答 查询推理

📋 核心要点

多模态大语言模型在长视频理解方面面临效率挑战，需要从大量帧中提取关键信息。
MSJoE通过联合优化MLLM和轻量级采样器，使模型能够自适应地选择信息量大的关键帧。
实验表明，MSJoE在多个长视频理解基准测试中显著提升了准确率，优于现有方法。

📝 摘要（中文）

本文提出了一种名为MLLM-Sampler联合进化(MSJoE)的新框架，用于高效理解长视频，该框架联合进化多模态大型语言模型(MLLM)和一个轻量级的关键帧采样器。MSJoE基于一个关键假设：对于视频的每个问题，只有一小部分关键帧是真正有用的。具体来说，MSJoE首先推理出几个查询，这些查询描述了与问题相关的不同视觉视角。然后，这些查询与一个冻结的CLIP模型交互，生成一个查询-帧相似度矩阵。最后，一个轻量级的采样器从该矩阵中预测关键帧采样权重，选择一组紧凑的信息帧，然后将其输入到MLLM中以生成答案。MLLM和采样器都通过强化学习进行联合优化，从而实现查询推理、帧采样和关键帧理解的协同适应。我们收集了一个包含2.8K个视频和7K个问答对的新长视频QA数据集，以支持训练过程。在VideoMME、LongVideoBench、LVBench和MLVU上的大量实验表明，MSJoE比基础MLLM提高了8.0%的准确率，并且比最强的基线方法高出1.1%的准确率。

🔬 方法详解

问题定义：现有方法在处理长视频理解任务时，通常需要处理大量的视频帧，计算成本高昂，效率低下。此外，并非所有帧都包含回答问题所需的信息，因此需要一种有效的方法来选择关键帧。

核心思路：MSJoE的核心思路是联合优化多模态大语言模型（MLLM）和一个轻量级的关键帧采样器。通过强化学习，使MLLM能够更好地利用采样器选择的关键帧，同时使采样器能够更好地选择对MLLM有用的帧。这种协同优化能够提高长视频理解的效率和准确性。

技术框架：MSJoE框架包含以下几个主要模块：1) 查询推理模块：根据问题生成多个查询，描述与问题相关的不同视觉视角。2) 相似度计算模块：使用冻结的CLIP模型计算查询与视频帧之间的相似度，生成查询-帧相似度矩阵。3) 关键帧采样模块：一个轻量级的采样器，根据相似度矩阵预测关键帧的采样权重，选择一组信息量大的帧。4) MLLM：接收采样后的关键帧，生成答案。整个框架通过强化学习进行端到端训练。

关键创新：MSJoE的关键创新在于联合优化MLLM和采样器。传统的pipeline方法通常是先训练一个固定的采样器，然后再训练MLLM，而MSJoE通过强化学习使两者能够协同适应，从而获得更好的性能。此外，使用查询推理模块来指导关键帧采样也是一个创新点，能够更好地捕捉与问题相关的视觉信息。

关键设计：采样器是一个轻量级的神经网络，输入是查询-帧相似度矩阵，输出是每个帧的采样权重。强化学习的目标是最大化MLLM的答案准确率，奖励函数基于答案与ground truth之间的相似度。使用了新的长视频QA数据集进行训练，该数据集包含2.8K个视频和7K个问答对。

🖼️ 关键图片

📊 实验亮点

MSJoE在VideoMME、LongVideoBench、LVBench和MLVU等多个长视频理解基准测试中取得了显著的性能提升。具体来说，MSJoE比基础MLLM提高了8.0%的准确率，并且比最强的基线方法高出1.1%的准确率。这些结果表明，MSJoE能够有效地选择关键帧，并提高MLLM的长视频理解能力。

🎯 应用场景

MSJoE可应用于智能监控、视频检索、智能客服等领域。例如，在智能监控中，可以快速定位异常事件；在视频检索中，可以根据用户提问快速找到相关片段；在智能客服中，可以理解用户上传的视频并给出相应的解答。该研究有助于提升多模态大语言模型在实际应用中的效率和准确性。

📄 摘要（原文）

Efficiently understanding long-form videos remains a fundamental challenge for multimodal large language models (MLLMs). In this paper, we present MLLM-Sampler Joint Evolution (MSJoE), a novel framework that jointly evolves the MLLM and a lightweight key-frame sampler for efficient long-form video understanding. MSJoE builds upon a key assumption that only a small subset of key-frames is truly informative for answering each question to a video. Specifically, MSJoE first reasons out several queries, which describe diverse visual perspectives relevant to the question. Then, these queries interact with a frozen CLIP model to produce a query-frame similarity matrix. Finally, a lightweight sampler predicts key-frame sampling weights from this matrix, selecting a compact set of informative frames, which are then fed into the MLLM for answer generation. Both the MLLM and sampler are jointly optimized through reinforcement learning, enabling co-adaptation of query-reasoning, frame-sampling, and key-frame understanding. A new long-video QA dataset containing 2.8K videos with 7K question-answer pairs is collected to support the training process. Extensive experiments on VideoMME, LongVideoBench, LVBench, and MLVU show that MSJoE achieves 8.0\% accuracy gain upon the base MLLM, and 1.1\% higher accuracy than strongest baseline method.

MSJoE: Jointly Evolving MLLM and Sampler for Efficient Long-Form Video Understanding

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理