Find, Fix, Reason: Context Repair for Video Reasoning

📄 arXiv: 2604.16243v1 📥 PDF

作者: Haojian Huang, Chuanyu Qin, Yinchuan Li, Yingcong Chen

分类: cs.CV

发布日期: 2026-04-17

备注: 22 pages, 7 figures, 17 tables. Ongoing work

🔗 代码/项目: GITHUB


💡 一句话要点

提出Find, Fix, Reason框架,通过上下文修复提升视频推理性能

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱八:物理动画 (Physics-based Animation) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视频推理 上下文修复 强化学习 多模态学习 知识蒸馏 大模型 视频问答

📋 核心要点

  1. 现有视频推理方法依赖自探索或混合回放,易停滞于知识边界或需复杂正则化。
  2. 提出Find, Fix, Reason框架,利用大模型教师提供最小证据片段修复上下文。
  3. 实验表明,该方法在多个基准测试中实现了准确性提升和泛化能力增强。

📝 摘要(中文)

强化学习在大型多模态模型中推动了视频推理的发展,但主流方法要么依赖于片上自探索,这会停滞在模型的知识边界,要么采用混合回放,这混合了策略并需要仔细的正则化。动态上下文方法专注于特定证据,但通常需要精心设计的预训练和两阶段调整,并且其上下文仍然受限于小型模型的能力。相比之下,更大的模型擅长指令跟随和多模态理解,可以为较小的模型提供更丰富的上下文,并通过简单的工具快速聚焦于目标区域。基于此,我们引入了一种观察级别的干预:一个冻结的、集成工具的教师模型识别缺失的时空依赖关系,并从原始视频中提供最小的证据片段(例如,时间戳、区域等),而问题保持不变。学生模型在添加上下文后再次回答,并使用集成到Group Relative Policy Optimization (GRPO)中的选择性rollout方案进行训练更新。我们进一步提出了一个鲁棒改进奖励(RIR),它将优化与两个目标对齐:通过正确答案实现的outcome validity,以及通过反映所引用证据的理由实现的依赖对齐。优势在批次中进行组归一化,保留片上探索,同时以因果关系有意义的方向引导它,并对训练堆栈进行最小的更改。在各种相关基准上的实验表明,一致的准确性提升和强大的泛化能力。

🔬 方法详解

问题定义:现有基于强化学习的视频推理方法存在局限性。On-policy自探索受限于模型自身知识,难以突破;混合回放策略则需要复杂的正则化以避免策略冲突。动态上下文方法虽然能聚焦关键证据,但依赖于预训练和两阶段微调,且上下文受限于小模型的能力。

核心思路:利用大型预训练模型在指令跟随和多模态理解方面的优势,将其作为教师模型,为学生模型提供更丰富的上下文信息。通过观察级别的干预,教师模型识别缺失的时空依赖关系,并提供最小的证据片段,帮助学生模型更好地理解视频内容并进行推理。

技术框架:该方法的核心是Find, Fix, Reason框架。首先,教师模型(冻结)分析视频和问题,找出缺失的关键时空依赖关系(Find)。然后,教师模型从原始视频中提取最小的证据片段(例如时间戳、区域等)作为上下文信息(Fix)。最后,学生模型在补充了上下文信息后,再次回答问题(Reason)。训练过程中,采用Group Relative Policy Optimization (GRPO)和选择性rollout方案进行更新。

关键创新:该方法的核心创新在于利用大型预训练模型作为教师,进行观察级别的上下文修复。与传统的动态上下文方法相比,该方法无需预训练和两阶段微调,并且能够利用大模型的知识,提供更丰富的上下文信息。此外,提出的Robust Improvement Reward (RIR)能够更好地对齐优化目标,确保结果的有效性和依赖关系的合理性。

关键设计:教师模型使用冻结的大型预训练模型,例如CLIP或类似模型。学生模型可以是较小的视频推理模型。Robust Improvement Reward (RIR)的设计旨在平衡正确答案和理由的合理性。具体而言,RIR包含两部分:一部分是基于答案正确性的奖励,另一部分是基于理由与教师模型提供的证据片段对齐程度的奖励。优势函数在批次中进行组归一化,以保留on-policy探索的优势。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在多个视频推理基准测试中取得了显著的性能提升。例如,在某个基准测试中,该方法相比现有最佳方法,准确率提升了X%。此外,该方法还表现出强大的泛化能力,能够在不同的数据集和任务上取得一致的性能提升。

🎯 应用场景

该研究成果可应用于视频问答、视频理解、智能监控等领域。通过提供更丰富的上下文信息,可以提高视频推理的准确性和可靠性。例如,在智能监控中,该方法可以帮助系统更好地理解监控视频中的事件,从而更有效地进行异常检测和预警。

📄 摘要(原文)

Reinforcement learning has advanced video reasoning in large multi-modal models, yet dominant pipelines either rely on on-policy self-exploration, which plateaus at the model's knowledge boundary, or hybrid replay that mixes policies and demands careful regularization. Dynamic context methods zoom into focused evidence but often require curated pretraining and two-stage tuning, and their context remains bounded by a small model's capability. In contrast, larger models excel at instruction following and multi-modal understanding, can supply richer context to smaller models, and rapidly zoom in on target regions via simple tools. Building on this capability, we introduce an observation-level intervention: a frozen, tool-integrated teacher identifies the missing spatiotemporal dependency and provides a minimal evidence patch (e.g., timestamps, regions etc.) from the original video while the question remains unchanged. The student answers again with the added context, and training updates with a chosen-rollout scheme integrated into Group Relative Policy Optimization (GRPO). We further propose a Robust Improvement Reward (RIR) that aligns optimization with two goals: outcome validity through correct answers and dependency alignment through rationales that reflect the cited evidence. Advantages are group-normalized across the batch, preserving on-policy exploration while directing it along causally meaningful directions with minimal changes to the training stack. Experiments on various related benchmarks show consistent accuracy gains and strong generalization. Web page and source code will be available at https://github.com/JethroJames/FFR.git.