ViKey: Enhancing Temporal Understanding in Videos via Visual Prompting

📄 arXiv: 2603.23186v1 📥 PDF

作者: Yeonkyung Lee, Dayun Ju, Youngmin Kim, Seil Kang, Seong Jae Hwang

分类: cs.CV

发布日期: 2026-03-24

备注: accepted to CVPR2026


💡 一句话要点

ViKey:通过视觉提示增强视频大语言模型的时间理解能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视频大语言模型 时间理解 视觉提示 关键词-帧映射 稀疏采样 视频问答 多模态学习

📋 核心要点

  1. 现有帧选择方法虽然降低了计算成本,但在需要时间推理的视频任务中性能显著下降,因为VideoLLM难以理解稀疏帧之间的时间关系。
  2. 论文提出ViKey框架,通过视觉提示(VP)为视频帧添加显式序号信息,并结合关键词-帧映射(KFM)模块,增强模型的时间理解能力。
  3. 实验结果表明,ViKey在提高时间推理能力方面表现出色,在某些数据集上仅使用20%的帧就能达到密集帧基线的性能。

📝 摘要(中文)

视频大语言模型(VideoLLMs)的最新进展使其在各种多模态视频任务中表现出色。为了降低处理密集视频帧的高计算成本,诸如帧选择等效率优化方法被广泛采用。虽然这些方法有效地减少了冗余,但通常会导致需要时间推理的任务性能显著下降。与人类可以从稀疏视觉线索中推断事件进展不同,VideoLLMs在省略中间帧时经常错误地解释时间关系。为了解决这个限制,我们探索了视觉提示(VP)作为一种轻量级但有效的方式来增强VideoLLMs中的时间理解。我们的分析表明,简单地用显式序号信息注释每个帧有助于模型感知时间连续性。这种视觉线索还支持帧级引用,并减轻稀疏采样序列中的位置歧义。基于这些见解,我们引入了ViKey,一个无需训练的框架,它将VP与轻量级关键词-帧映射(KFM)模块相结合。KFM利用帧索引作为类似字典的键,将文本线索链接到最相关的帧,从而在推理过程中提供显式的时间锚点。尽管其简单性,我们的方法显著提高了时间推理能力,并且在某些数据集上,仅使用20%的帧就能保持密集帧基线的性能。

🔬 方法详解

问题定义:论文旨在解决视频大语言模型(VideoLLMs)在处理稀疏采样视频帧时,时间推理能力不足的问题。现有帧选择方法虽然降低了计算成本,但由于忽略了中间帧的信息,导致模型难以准确理解视频中的时间关系和事件进展。这种时间理解的缺失严重影响了模型在需要时间推理的任务中的表现。

核心思路:论文的核心思路是通过视觉提示(Visual Prompting)的方式,为视频帧添加显式的时间信息,帮助模型更好地理解视频的时间结构。具体来说,通过在每一帧上标注序号信息,使模型能够感知时间连续性,并减轻稀疏采样带来的位置歧义。此外,论文还引入了关键词-帧映射(Keyword-Frame Mapping)模块,将文本线索与最相关的帧进行关联,从而提供显式的时间锚点。

技术框架:ViKey框架主要包含两个部分:视觉提示(VP)和关键词-帧映射(KFM)。首先,对输入的视频帧进行稀疏采样,并使用视觉提示为每一帧添加序号信息。然后,KFM模块利用帧索引作为键,将文本线索与对应的帧进行关联。在推理过程中,模型可以根据这些时间锚点,更好地理解视频的时间关系。整个框架无需训练,可以直接应用于现有的VideoLLMs。

关键创新:论文的关键创新在于将视觉提示和关键词-帧映射相结合,以增强VideoLLMs的时间理解能力。与传统的帧选择方法不同,ViKey不仅减少了计算成本,还通过显式的时间信息,弥补了稀疏采样带来的信息损失。此外,ViKey框架无需训练,可以直接应用于现有的VideoLLMs,具有很强的通用性和实用性。

关键设计:视觉提示的设计非常简单,直接在每一帧上标注序号信息。关键词-帧映射模块利用帧索引作为键,将文本线索与对应的帧进行关联。具体实现上,可以使用一个简单的字典结构来存储帧索引和文本线索之间的映射关系。在推理过程中,模型可以根据帧索引,快速找到与文本线索相关的帧,从而更好地理解视频的内容。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

ViKey框架在多个视频理解数据集上取得了显著的性能提升。实验结果表明,在某些数据集上,仅使用20%的帧就能达到密集帧基线的性能。这表明ViKey能够有效地减少计算成本,同时保持甚至提高模型的时间推理能力。此外,ViKey框架无需训练,可以直接应用于现有的VideoLLMs,具有很强的通用性和实用性。

🎯 应用场景

该研究成果可广泛应用于各种视频理解任务,例如视频问答、视频摘要、视频编辑和视频检索等。通过增强模型的时间理解能力,可以提高这些任务的准确性和效率。此外,该方法还可以应用于机器人导航、自动驾驶等领域,帮助机器人更好地理解周围环境的变化。

📄 摘要(原文)

Recent advancements in Video Large Language Models (VideoLLMs) have enabled strong performance across diverse multimodal video tasks. To reduce the high computational cost of processing dense video frames, efficiency-oriented methods such as frame selection have been widely adopted. While effective at minimizing redundancy, these methods often cause notable performance drops on tasks requiring temporal reasoning. Unlike humans, who can infer event progression from sparse visual cues, VideoLLMs frequently misinterpret temporal relations when intermediate frames are omitted. To address this limitation, we explore visual prompting (VP) as a lightweight yet effective way to enhance temporal understanding in VideoLLMs. Our analysis reveals that simply annotating each frame with explicit ordinal information helps the model perceive temporal continuity. This visual cue also supports frame-level referencing and mitigates positional ambiguity within a sparsely sampled sequence. Building on these insights, we introduce ViKey, a training-free framework that combines VP with a lightweight Keyword-Frame Mapping (KFM) module. KFM leverages frame indices as dictionary-like keys to link textual cues to the most relevant frames, providing explicit temporal anchors during inference. Despite its simplicity, our approach substantially improves temporal reasoning and, on some datasets, preserves dense-frame baseline performance with as few as 20% of frames.