Video-KTR: Reinforcing Video Reasoning via Key Token Attribution
作者: Ziyue Wang, Sheng Jin, Zhongrong Zuo, Jiawei Wu, Han Qiu, Qi She, Hao Zhang, Xudong Jiang
分类: cs.CV
发布日期: 2026-01-27
备注: Accepted to ICLR 2026
🔗 代码/项目: GITHUB
💡 一句话要点
提出Video-KTR以解决视频推理中的奖励稀疏问题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视频推理 强化学习 多模态学习 归因信号 时间动态 可解释性 模型优化
📋 核心要点
- 现有视频推理方法多依赖粗糙的序列级奖励,忽视了视觉输入与语言输出之间的细粒度联系,导致准确性和可解释性不足。
- 论文提出Video-KTR,通过结合视觉、时间和不确定性三种归因信号,进行选择性、令牌级的强化学习,提升视频推理能力。
- 在五个基准测试中,Video-KTR在Video-Holmes上取得42.7%的成绩,超越了GPT-4o,并在推理和视频理解任务上表现出持续的性能提升。
📝 摘要(中文)
强化学习(RL)在增强多模态大语言模型推理方面展现出强大潜力,但现有视频推理方法往往依赖粗糙的序列级奖励或单一因素的令牌选择,忽视了视觉输入、时间动态和语言输出之间的细粒度联系,限制了准确性和可解释性。我们提出了Video-KTR,这是一种模态感知的策略塑造框架,通过结合三种归因信号进行选择性、令牌级的RL:1)通过反事实掩蔽识别的视觉感知令牌;2)通过帧洗牌检测的时间感知令牌;3)信号预测不确定性的高熵令牌。通过强化这些关键令牌,Video-KTR专注于语义信息丰富、模态敏感的内容,同时过滤低价值令牌。在五个具有挑战性的基准上,Video-KTR实现了最先进或高度竞争的结果,在Video-Holmes上达到42.7%,超越GPT-4o,并在推理和一般视频理解任务上持续提升。消融研究验证了归因信号的互补作用和针对性令牌级更新的鲁棒性。总体而言,Video-KTR提高了准确性和可解释性,为复杂视频推理提供了简单的RL扩展。
🔬 方法详解
问题定义:本论文旨在解决现有视频推理方法中奖励稀疏和令牌选择单一的问题,这限制了模型的准确性和可解释性。现有方法往往忽视了视觉输入、时间动态和语言输出之间的细粒度联系。
核心思路:论文的核心思路是通过引入三种归因信号,进行选择性、令牌级的强化学习,专注于语义信息丰富的关键令牌,从而提升视频推理的效果和可解释性。
技术框架:Video-KTR的整体架构包括三个主要模块:视觉感知令牌、时间感知令牌和高熵令牌。通过反事实掩蔽和帧洗牌技术,分别识别和强化这些关键令牌。
关键创新:最重要的技术创新点在于引入了多种归因信号,特别是时间感知和高熵令牌的使用,使得模型能够更好地捕捉视频中的动态信息和不确定性,与现有方法相比,显著提升了推理能力。
关键设计:在参数设置上,模型通过选择性强化学习策略,优化了损失函数以聚焦于关键令牌,同时采用了针对性的更新策略,确保了模型在训练过程中的鲁棒性。具体的网络结构细节和参数设置在实验部分进行了详细说明。
🖼️ 关键图片
📊 实验亮点
在实验中,Video-KTR在Video-Holmes基准上达到了42.7%的准确率,超越了GPT-4o,并在多个推理和视频理解任务上表现出持续的性能提升,显示出其在视频推理领域的强大能力。
🎯 应用场景
该研究的潜在应用场景包括视频监控、自动驾驶、智能助手等领域,能够有效提升系统对复杂视频内容的理解和推理能力,具有广泛的实际价值和未来影响。
📄 摘要(原文)
Reinforcement learning (RL) has shown strong potential for enhancing reasoning in multimodal large language models, yet existing video reasoning methods often rely on coarse sequence-level rewards or single-factor token selection, neglecting fine-grained links among visual inputs, temporal dynamics, and linguistic outputs, limiting both accuracy and interpretability. We propose Video-KTR, a modality-aware policy shaping framework that performs selective, token-level RL by combining three attribution signals: (1) visual-aware tokens identified via counterfactual masking to reveal perceptual dependence; (2) temporal-aware tokens detected through frame shuffling to expose temporal sensitivity; and (3) high-entropy tokens signaling predictive uncertainty. By reinforcing only these key tokens, Video-KTR focuses learning on semantically informative, modality-sensitive content while filtering out low-value tokens. Across five challenging benchmarks, Video-KTR achieves state-of-the-art or highly competitive results, achieving 42.7\% on Video-Holmes (surpassing GPT-4o) with consistent gains on both reasoning and general video understanding tasks. Ablation studies verify the complementary roles of the attribution signals and the robustness of targeted token-level updates. Overall, Video-KTR improves accuracy and interpretability, offering a simple, drop-in extension to RL for complex video reasoning. Our code and models are available at https://github.com/zywang0104/Video-KTR.