LDDR: Linear-DPP-Based Dynamic-Resolution Frame Sampling for Video MLLMs

📄 arXiv: 2605.11477v1 📥 PDF

作者: Jingfeng Chen, Jiawen Qian, Wendi Deng, Yinuo Guo, Jiaqi Yu, Sicong Leng, Raghuveer Thirukovalluru, Bhuwan Dhingra

分类: cs.CV

发布日期: 2026-05-12

备注: 21 pages, 4 figures


💡 一句话要点

提出LDDR:基于线性DPP的动态分辨率视频帧采样方法,提升视频MLLM性能

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视频理解 多模态大语言模型 帧采样 行列式点过程 动态分辨率 长视频处理 视觉token预算

📋 核心要点

  1. 现有视频MLLM方法在有限的视觉token预算下,难以有效选择长视频中的信息帧,忽略全局依赖或引入额外开销。
  2. LDDR通过查询感知的DPP帧选择,在任务相关的特征空间中进行采样,并利用Group DPP指导动态分辨率分配。
  3. 实验表明,LDDR在多个视频基准和MLLM骨干网络上均优于现有方法,尤其在预算受限场景下提升显著。

📝 摘要(中文)

本文提出了一种名为LDDR(Linear DPP-Based Dynamic Resolution)的免训练、即插即用且具有预算意识的视频帧采样框架,用于多模态大语言模型中的视频理解。该方法在任务相关的特征空间中执行查询感知的行列式点过程(DPP)帧选择,相比标准DPP基线实现了3倍的运行时加速。此外,LDDR引入了一种Group DPP重要性度量来指导帧保留和动态分辨率分配,为信息丰富且非冗余的帧分配更多tokens,同时缩小或修剪不太有用的帧。在涵盖短、中、长程视频的四个视频基准测试中,LDDR始终优于其他基线,在预算受限的设置下实现了2.5个点的增益,在高预算场景下实现了1.6个点的增益。这些改进在包括开源和闭源模型在内的多个MLLM骨干网络中得到了一致的观察。定性分析证实,相关帧被选中并分配了更高的预算,从而促进了改进的视频理解。

🔬 方法详解

问题定义:视频多模态大语言模型(MLLM)需要从冗长的视频中选择信息量大的帧,但视觉token预算有限。现有方法如均匀采样、逐点相关性评分、分块选择或基于Agent的探索,要么忽略了全局依赖关系,要么引入了大量的计算开销,无法在效率和性能之间取得平衡。

核心思路:LDDR的核心思路是利用行列式点过程(DPP)选择具有代表性和多样性的帧子集,并根据帧的重要性动态调整分辨率。DPP能够保证选择的帧之间具有较低的冗余度,从而更好地覆盖视频的内容。动态分辨率分配则允许模型将更多的计算资源集中在重要的帧上,提高整体的视频理解能力。

技术框架:LDDR框架主要包含两个阶段:1) 基于线性DPP的帧选择:首先提取视频帧的特征,然后利用线性化的DPP算法,在任务相关的特征空间中选择最具代表性的帧子集。线性化DPP加速了计算过程,使其适用于长视频。2) 动态分辨率分配:引入Group DPP重要性度量,评估每个帧的重要性,并根据重要性动态调整帧的分辨率。重要的帧分配更高的分辨率,不重要的帧则降低分辨率或直接丢弃。

关键创新:LDDR的关键创新在于将线性DPP与动态分辨率分配相结合,实现了一种高效且有效的视频帧采样方法。线性DPP加速了帧选择过程,使其能够处理长视频。Group DPP重要性度量能够准确评估帧的重要性,并指导动态分辨率分配,从而在有限的计算资源下最大化视频理解性能。

关键设计:LDDR使用任务相关的特征空间进行DPP采样,例如,对于视频问答任务,可以使用问题的embedding来指导帧选择。Group DPP重要性度量基于DPP的核矩阵计算,能够反映帧之间的相关性和多样性。动态分辨率分配的具体策略可以根据实际情况进行调整,例如,可以设置一个分辨率阈值,低于该阈值的帧直接丢弃。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

LDDR在四个视频基准测试中均优于现有方法,在预算受限的设置下实现了2.5个点的增益,在高预算场景下实现了1.6个点的增益。这些改进在多个MLLM骨干网络中得到了一致的观察,包括开源和闭源模型。实验结果表明,LDDR能够有效选择相关帧并为其分配更高的预算,从而提升视频理解性能。

🎯 应用场景

LDDR可广泛应用于视频理解相关的多模态大语言模型中,例如视频问答、视频摘要、视频描述生成等。该方法能够有效提升模型在有限计算资源下的性能,尤其适用于长视频处理。未来可进一步探索LDDR在其他视频分析任务中的应用,例如视频监控、自动驾驶等。

📄 摘要(原文)

Video understanding in multimodal large language models requires selecting informative frames from long, redundant videos under limited visual-token budgets. Existing methods often rely on uniform sampling, point-wise relevance scoring, chunk-wise selection, or agentic exploration, which either miss global dependencies or introduce substantial overhead. We propose LDDR (Linear DPP-Based Dynamic Resolution), a training-free, plug-and-play, and budget-aware video frame sampling framework. LDDR performs query-aware Determinantal Point Process (DPP) frame selection in a task-conditioned feature space, achieving a 3x runtime speedup over standard DPP baselines. It further introduces a Group DPP importance metric to guide frame retention and dynamic resolution allocation, assigning more tokens to informative, non-redundant frames while downscaling or pruning less useful ones. Across four video benchmarks spanning short-, medium-, and long-range videos, LDDR consistently outperforms the next-best baselines, achieving gains of 2.5 points under budget-constrained settings and 1.6 points in high-budget scenarios. These improvements are consistently observed across multiple MLLM backbones, including both open- and closed-source models. Qualitative analysis confirms that relevant frames are selected and allocated a higher budget, facilitating improved video understanding.