MSJoE: Jointly Evolving MLLM and Sampler for Efficient Long-Form Video Understanding
作者: Wenhui Tan, Xiaoyi Yu, Jiaze Li, Yijing Chen, Jianzhong Ju, Zhenbo Luo, Ruihua Song, Jian Luan
分类: cs.CV
发布日期: 2026-02-26
备注: Accepted by CVPR2026
💡 一句话要点
提出MSJoE,联合优化MLLM和采样器,高效理解长视频
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 长视频理解 多模态大语言模型 关键帧采样 强化学习 联合优化 视频问答 查询推理
📋 核心要点
- 多模态大语言模型(MLLM)在长视频理解方面面临效率挑战,现有方法难以有效提取关键信息。
- MSJoE框架通过联合进化MLLM和轻量级关键帧采样器,实现查询推理、帧采样和关键帧理解的协同优化。
- 实验结果表明,MSJoE在多个长视频理解数据集上显著提升了准确率,优于现有方法。
📝 摘要(中文)
本文提出了一种MLLM-Sampler联合进化(MSJoE)框架,用于高效理解长视频。MSJoE基于一个关键假设:对于视频的每个问题,只有一小部分关键帧是真正有用的。具体来说,MSJoE首先推理出多个查询,这些查询描述了与问题相关的不同视觉视角。然后,这些查询与一个冻结的CLIP模型交互,生成一个查询-帧相似度矩阵。最后,一个轻量级的采样器从该矩阵中预测关键帧采样权重,选择一组紧凑的信息帧,然后将其输入到MLLM中以生成答案。MLLM和采样器都通过强化学习进行联合优化,从而实现查询推理、帧采样和关键帧理解的协同适应。收集了一个包含2.8K视频和7K问答对的新长视频QA数据集,以支持训练过程。在VideoMME、LongVideoBench、LVBench和MLVU上的大量实验表明,MSJoE在基础MLLM的基础上实现了8.0%的准确率提升,并且比最强的基线方法高出1.1%的准确率。
🔬 方法详解
问题定义:现有方法在处理长视频理解任务时,通常难以从大量帧中高效地提取关键信息。这导致计算成本高昂,并且可能因为冗余信息而影响模型的性能。因此,如何选择最具信息量的帧子集,并将其有效地输入到MLLM中,是一个亟待解决的问题。
核心思路:MSJoE的核心思路是联合优化MLLM和一个轻量级的关键帧采样器。通过让MLLM学习如何更好地利用采样的关键帧,并让采样器学习如何选择对MLLM最有用的帧,从而实现二者的协同进化。这种联合优化能够提高长视频理解的效率和准确性。
技术框架:MSJoE框架包含以下几个主要模块:1) 查询推理模块:根据问题生成多个描述不同视觉视角的查询。2) 相似度计算模块:利用冻结的CLIP模型计算查询与视频帧之间的相似度矩阵。3) 关键帧采样模块:根据相似度矩阵预测关键帧的采样权重,选择信息量大的帧子集。4) MLLM:接收采样的关键帧,并生成答案。整个框架通过强化学习进行端到端训练。
关键创新:MSJoE的关键创新在于联合优化MLLM和采样器。传统的做法通常是独立地训练MLLM和采样器,而MSJoE通过强化学习将二者连接起来,使得它们能够相互适应,共同提高性能。此外,使用查询推理模块来指导关键帧采样也是一个创新点,它能够帮助采样器更好地理解问题的需求,并选择与之相关的帧。
关键设计:MSJoE使用强化学习来优化MLLM和采样器。奖励函数的设计至关重要,它需要能够反映答案的准确性和采样效率。具体来说,奖励函数可以包括答案的正确性得分(例如,与ground truth答案的相似度)和采样帧的数量的惩罚项。采样器的网络结构可以采用简单的全连接网络或卷积神经网络,以实现轻量化和高效的采样。
🖼️ 关键图片
📊 实验亮点
MSJoE在VideoMME、LongVideoBench、LVBench和MLVU等多个长视频QA数据集上取得了显著的性能提升。相较于基础MLLM,MSJoE实现了8.0%的准确率提升,并且比最强的基线方法高出1.1%的准确率。这些结果表明,MSJoE能够有效地提取长视频中的关键信息,并提高MLLM的理解能力。
🎯 应用场景
MSJoE框架可应用于视频监控、智能安防、自动驾驶、视频内容分析等领域。通过高效地理解长视频内容,可以实现更智能的事件检测、行为识别和决策支持。该研究有助于提升人工智能在视频处理方面的能力,并为相关产业带来实际价值。
📄 摘要(原文)
Efficiently understanding long-form videos remains a fundamental challenge for multimodal large language models (MLLMs). In this paper, we present MLLM-Sampler Joint Evolution (MSJoE), a novel framework that jointly evolves the MLLM and a lightweight key-frame sampler for efficient long-form video understanding. MSJoE builds upon a key assumption that only a small subset of key-frames is truly informative for answering each question to a video. Specifically, MSJoE first reasons out several queries, which describe diverse visual perspectives relevant to the question. Then, these queries interact with a frozen CLIP model to produce a query-frame similarity matrix. Finally, a lightweight sampler predicts key-frame sampling weights from this matrix, selecting a compact set of informative frames, which are then fed into the MLLM for answer generation. Both the MLLM and sampler are jointly optimized through reinforcement learning, enabling co-adaptation of query-reasoning, frame-sampling, and key-frame understanding. A new long-video QA dataset containing 2.8K videos with 7K question-answer pairs is collected to support the training process. Extensive experiments on VideoMME, LongVideoBench, LVBench, and MLVU show that MSJoE achieves 8.0\% accuracy gain upon the base MLLM, and 1.1\% higher accuracy than strongest baseline method.