MSJoE: Jointly Evolving MLLM and Sampler for Efficient Long-Form Video Understanding

作者: Wenhui Tan, Xiaoyi Yu, Jiaze Li, Yijing Chen, Jianzhong Ju, Zhenbo Luo, Ruihua Song, Jian Luan

分类: cs.CV

发布日期: 2026-02-26

备注: Accepted by CVPR2026

💡 一句话要点

提出MSJoE，联合优化MLLM和采样器，高效理解长视频

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 长视频理解 多模态大语言模型 关键帧采样 强化学习 联合优化 视频问答 查询推理

📋 核心要点

多模态大语言模型(MLLM)在长视频理解方面面临效率挑战，现有方法难以有效提取关键信息。
MSJoE框架通过联合进化MLLM和轻量级关键帧采样器，实现查询推理、帧采样和关键帧理解的协同优化。
实验结果表明，MSJoE在多个长视频理解数据集上显著提升了准确率，优于现有方法。

📝 摘要（中文）

本文提出了一种MLLM-Sampler联合进化（MSJoE）框架，用于高效理解长视频。MSJoE基于一个关键假设：对于视频的每个问题，只有一小部分关键帧是真正有用的。具体来说，MSJoE首先推理出多个查询，这些查询描述了与问题相关的不同视觉视角。然后，这些查询与一个冻结的CLIP模型交互，生成一个查询-帧相似度矩阵。最后，一个轻量级的采样器从该矩阵中预测关键帧采样权重，选择一组紧凑的信息帧，然后将其输入到MLLM中以生成答案。MLLM和采样器都通过强化学习进行联合优化，从而实现查询推理、帧采样和关键帧理解的协同适应。收集了一个包含2.8K视频和7K问答对的新长视频QA数据集，以支持训练过程。在VideoMME、LongVideoBench、LVBench和MLVU上的大量实验表明，MSJoE在基础MLLM的基础上实现了8.0%的准确率提升，并且比最强的基线方法高出1.1%的准确率。

🔬 方法详解

问题定义：现有方法在处理长视频理解任务时，通常难以从大量帧中高效地提取关键信息。这导致计算成本高昂，并且可能因为冗余信息而影响模型的性能。因此，如何选择最具信息量的帧子集，并将其有效地输入到MLLM中，是一个亟待解决的问题。

核心思路：MSJoE的核心思路是联合优化MLLM和一个轻量级的关键帧采样器。通过让MLLM学习如何更好地利用采样的关键帧，并让采样器学习如何选择对MLLM最有用的帧，从而实现二者的协同进化。这种联合优化能够提高长视频理解的效率和准确性。

技术框架：MSJoE框架包含以下几个主要模块：1) 查询推理模块：根据问题生成多个描述不同视觉视角的查询。2) 相似度计算模块：利用冻结的CLIP模型计算查询与视频帧之间的相似度矩阵。3) 关键帧采样模块：根据相似度矩阵预测关键帧的采样权重，选择信息量大的帧子集。4) MLLM：接收采样的关键帧，并生成答案。整个框架通过强化学习进行端到端训练。

关键创新：MSJoE的关键创新在于联合优化MLLM和采样器。传统的做法通常是独立地训练MLLM和采样器，而MSJoE通过强化学习将二者连接起来，使得它们能够相互适应，共同提高性能。此外，使用查询推理模块来指导关键帧采样也是一个创新点，它能够帮助采样器更好地理解问题的需求，并选择与之相关的帧。

关键设计：MSJoE使用强化学习来优化MLLM和采样器。奖励函数的设计至关重要，它需要能够反映答案的准确性和采样效率。具体来说，奖励函数可以包括答案的正确性得分（例如，与ground truth答案的相似度）和采样帧的数量的惩罚项。采样器的网络结构可以采用简单的全连接网络或卷积神经网络，以实现轻量化和高效的采样。

🖼️ 关键图片

📊 实验亮点

MSJoE在VideoMME、LongVideoBench、LVBench和MLVU等多个长视频QA数据集上取得了显著的性能提升。相较于基础MLLM，MSJoE实现了8.0%的准确率提升，并且比最强的基线方法高出1.1%的准确率。这些结果表明，MSJoE能够有效地提取长视频中的关键信息，并提高MLLM的理解能力。

🎯 应用场景

MSJoE框架可应用于视频监控、智能安防、自动驾驶、视频内容分析等领域。通过高效地理解长视频内容，可以实现更智能的事件检测、行为识别和决策支持。该研究有助于提升人工智能在视频处理方面的能力，并为相关产业带来实际价值。

📄 摘要（原文）

Efficiently understanding long-form videos remains a fundamental challenge for multimodal large language models (MLLMs). In this paper, we present MLLM-Sampler Joint Evolution (MSJoE), a novel framework that jointly evolves the MLLM and a lightweight key-frame sampler for efficient long-form video understanding. MSJoE builds upon a key assumption that only a small subset of key-frames is truly informative for answering each question to a video. Specifically, MSJoE first reasons out several queries, which describe diverse visual perspectives relevant to the question. Then, these queries interact with a frozen CLIP model to produce a query-frame similarity matrix. Finally, a lightweight sampler predicts key-frame sampling weights from this matrix, selecting a compact set of informative frames, which are then fed into the MLLM for answer generation. Both the MLLM and sampler are jointly optimized through reinforcement learning, enabling co-adaptation of query-reasoning, frame-sampling, and key-frame understanding. A new long-video QA dataset containing 2.8K videos with 7K question-answer pairs is collected to support the training process. Extensive experiments on VideoMME, LongVideoBench, LVBench, and MLVU show that MSJoE achieves 8.0\% accuracy gain upon the base MLLM, and 1.1\% higher accuracy than strongest baseline method.

MSJoE: Jointly Evolving MLLM and Sampler for Efficient Long-Form Video Understanding

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理