LDDR: Linear-DPP-Based Dynamic-Resolution Frame Sampling for Video MLLMs

作者: Jingfeng Chen, Jiawen Qian, Wendi Deng, Yinuo Guo, Jiaqi Yu, Sicong Leng, Raghuveer Thirukovalluru, Bhuwan Dhingra

分类: cs.CV

发布日期: 2026-05-12

备注: 21 pages, 4 figures

💡 一句话要点

提出LDDR：基于线性DPP的动态分辨率视频帧采样方法，提升视频MLLM性能

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视频理解 多模态大语言模型 帧采样 行列式点过程 动态分辨率 长视频处理 视觉token预算

📋 核心要点

现有视频MLLM方法在有限的视觉token预算下，难以有效选择长视频中的信息帧，忽略全局依赖或引入额外开销。
LDDR通过查询感知的DPP帧选择，在任务相关的特征空间中进行采样，并利用Group DPP指导动态分辨率分配。
实验表明，LDDR在多个视频基准和MLLM骨干网络上均优于现有方法，尤其在预算受限场景下提升显著。

📝 摘要（中文）

本文提出了一种名为LDDR（Linear DPP-Based Dynamic Resolution）的免训练、即插即用且具有预算意识的视频帧采样框架，用于多模态大语言模型中的视频理解。该方法在任务相关的特征空间中执行查询感知的行列式点过程（DPP）帧选择，相比标准DPP基线实现了3倍的运行时加速。此外，LDDR引入了一种Group DPP重要性度量来指导帧保留和动态分辨率分配，为信息丰富且非冗余的帧分配更多tokens，同时缩小或修剪不太有用的帧。在涵盖短、中、长程视频的四个视频基准测试中，LDDR始终优于其他基线，在预算受限的设置下实现了2.5个点的增益，在高预算场景下实现了1.6个点的增益。这些改进在包括开源和闭源模型在内的多个MLLM骨干网络中得到了一致的观察。定性分析证实，相关帧被选中并分配了更高的预算，从而促进了改进的视频理解。

🔬 方法详解

问题定义：视频多模态大语言模型（MLLM）需要从冗长的视频中选择信息量大的帧，但视觉token预算有限。现有方法如均匀采样、逐点相关性评分、分块选择或基于Agent的探索，要么忽略了全局依赖关系，要么引入了大量的计算开销，无法在效率和性能之间取得平衡。

核心思路：LDDR的核心思路是利用行列式点过程（DPP）选择具有代表性和多样性的帧子集，并根据帧的重要性动态调整分辨率。DPP能够保证选择的帧之间具有较低的冗余度，从而更好地覆盖视频的内容。动态分辨率分配则允许模型将更多的计算资源集中在重要的帧上，提高整体的视频理解能力。

技术框架：LDDR框架主要包含两个阶段：1) 基于线性DPP的帧选择：首先提取视频帧的特征，然后利用线性化的DPP算法，在任务相关的特征空间中选择最具代表性的帧子集。线性化DPP加速了计算过程，使其适用于长视频。2) 动态分辨率分配：引入Group DPP重要性度量，评估每个帧的重要性，并根据重要性动态调整帧的分辨率。重要的帧分配更高的分辨率，不重要的帧则降低分辨率或直接丢弃。

关键创新：LDDR的关键创新在于将线性DPP与动态分辨率分配相结合，实现了一种高效且有效的视频帧采样方法。线性DPP加速了帧选择过程，使其能够处理长视频。Group DPP重要性度量能够准确评估帧的重要性，并指导动态分辨率分配，从而在有限的计算资源下最大化视频理解性能。

关键设计：LDDR使用任务相关的特征空间进行DPP采样，例如，对于视频问答任务，可以使用问题的embedding来指导帧选择。Group DPP重要性度量基于DPP的核矩阵计算，能够反映帧之间的相关性和多样性。动态分辨率分配的具体策略可以根据实际情况进行调整，例如，可以设置一个分辨率阈值，低于该阈值的帧直接丢弃。

🖼️ 关键图片

📊 实验亮点

LDDR在四个视频基准测试中均优于现有方法，在预算受限的设置下实现了2.5个点的增益，在高预算场景下实现了1.6个点的增益。这些改进在多个MLLM骨干网络中得到了一致的观察，包括开源和闭源模型。实验结果表明，LDDR能够有效选择相关帧并为其分配更高的预算，从而提升视频理解性能。

🎯 应用场景

LDDR可广泛应用于视频理解相关的多模态大语言模型中，例如视频问答、视频摘要、视频描述生成等。该方法能够有效提升模型在有限计算资源下的性能，尤其适用于长视频处理。未来可进一步探索LDDR在其他视频分析任务中的应用，例如视频监控、自动驾驶等。

📄 摘要（原文）

Video understanding in multimodal large language models requires selecting informative frames from long, redundant videos under limited visual-token budgets. Existing methods often rely on uniform sampling, point-wise relevance scoring, chunk-wise selection, or agentic exploration, which either miss global dependencies or introduce substantial overhead. We propose LDDR (Linear DPP-Based Dynamic Resolution), a training-free, plug-and-play, and budget-aware video frame sampling framework. LDDR performs query-aware Determinantal Point Process (DPP) frame selection in a task-conditioned feature space, achieving a 3x runtime speedup over standard DPP baselines. It further introduces a Group DPP importance metric to guide frame retention and dynamic resolution allocation, assigning more tokens to informative, non-redundant frames while downscaling or pruning less useful ones. Across four video benchmarks spanning short-, medium-, and long-range videos, LDDR consistently outperforms the next-best baselines, achieving gains of 2.5 points under budget-constrained settings and 1.6 points in high-budget scenarios. These improvements are consistently observed across multiple MLLM backbones, including both open- and closed-source models. Qualitative analysis confirms that relevant frames are selected and allocated a higher budget, facilitating improved video understanding.

LDDR: Linear-DPP-Based Dynamic-Resolution Frame Sampling for Video MLLMs

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理