When Thinking Hurts: Mitigating Visual Forgetting in Video Reasoning via Frame Repetition

📄 arXiv: 2603.16256v1 📥 PDF

作者: Xiaokun Sun, Yubo Wang, Haoyu Cao, Linli Xu

分类: cs.CV

发布日期: 2026-03-17


💡 一句话要点

提出FrameRepeat框架,通过帧重复缓解视频推理中视觉信息遗忘问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视频问答 多模态大语言模型 视觉锚点漂移 帧重复 思维链推理 视觉信息增强 自动化框架

📋 核心要点

  1. 视频问答中,MLLM的CoT推理易产生“视觉锚点漂移”,导致模型过度依赖文本而忽略关键视觉信息。
  2. FrameRepeat框架通过轻量级重复评分模块,使Video-LLM自主识别并重复关键帧,强化视觉线索。
  3. 提出的Add-One-In (AOI)训练策略,利用MLLM输出概率生成监督信号,指导帧评分网络训练。

📝 摘要(中文)

近年来,多模态大型语言模型(MLLM)通过整合思维链(CoT)推理在复杂的视觉任务中展现出巨大的潜力。然而,在视频问答中,延长的思考过程并不总能带来性能提升,甚至可能由于“视觉锚点漂移”而导致性能下降,即模型越来越依赖于自我生成的文本,忽略视觉输入并产生幻觉。虽然现有的缓解措施通常引入特定的机制,使模型在推理过程中重新关注视觉输入,但这些方法通常会产生过高的训练成本,并且在不同的架构中泛化性较差。为了解决这个问题,我们提出了FrameRepeat,一个自动增强框架,它具有一个轻量级的重复评分模块,使Video-LLM能够自主地识别哪些帧应该被加强。我们引入了一种新的训练策略,Add-One-In (AOI),它使用MLLM输出概率来生成表示重复增益的监督信号。这可以用来训练一个帧评分网络,该网络指导帧重复行为。跨多个模型和数据集的实验结果表明,FrameRepeat在加强推理过程中的重要视觉线索方面既有效又具有通用性。

🔬 方法详解

问题定义:视频问答任务中,多模态大语言模型(MLLM)在进行Chain-of-Thought (CoT)推理时,容易出现“视觉锚点漂移”现象。这意味着模型在推理过程中逐渐忽略原始视频帧中的视觉信息,转而过度依赖自身生成的文本,从而导致性能下降和产生幻觉。现有方法通常需要引入额外的机制来强制模型重新关注视觉输入,但这些方法往往训练成本高昂,且在不同模型架构上的泛化能力较差。

核心思路:FrameRepeat的核心思路是通过自动识别并重复视频中的关键帧,从而强化模型对重要视觉信息的关注,减轻“视觉锚点漂移”现象。该方法旨在让模型在推理过程中能够更有效地利用视觉信息,提高视频问答的准确性和可靠性。通过重复关键帧,模型可以更频繁地接触到重要的视觉线索,从而减少对文本信息的过度依赖。

技术框架:FrameRepeat框架主要包含两个核心模块:帧评分网络和帧重复机制。首先,帧评分网络负责对视频中的每一帧进行评分,评估其重要程度。然后,帧重复机制根据帧评分网络的结果,决定哪些帧需要被重复,以及重复的次数。在训练阶段,采用Add-One-In (AOI)策略,利用MLLM的输出概率生成监督信号,用于训练帧评分网络。在推理阶段,根据帧评分网络的结果,对视频帧进行重复,并将重复后的视频输入到MLLM中进行问答。

关键创新:FrameRepeat的关键创新在于其自动化和轻量级的特性。与现有方法相比,FrameRepeat无需手动设计复杂的视觉注意力机制,而是通过自动学习的方式来识别和强化关键帧。此外,FrameRepeat的帧评分网络结构简单,计算开销小,易于集成到现有的Video-LLM架构中。AOI训练策略也是一个重要的创新点,它利用MLLM自身的输出概率来生成监督信号,无需额外的人工标注数据。

关键设计:AOI训练策略是FrameRepeat的关键设计之一。该策略通过比较原始视频和添加一帧后的视频的MLLM输出概率,来评估该帧的重要性。具体来说,如果添加某一帧后,MLLM的输出概率显著提高,则认为该帧是重要的,并赋予较高的重复增益。帧评分网络可以使用简单的卷积神经网络或Transformer编码器来实现。损失函数可以使用交叉熵损失或均方误差损失,用于衡量帧评分网络的预测结果与AOI策略生成的监督信号之间的差异。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,FrameRepeat框架在多个视频问答数据集上取得了显著的性能提升。例如,在某个数据集上,FrameRepeat将模型的准确率提高了5%以上,超过了现有的基线方法。此外,实验还证明了FrameRepeat的泛化能力,即在不同的Video-LLM架构上都能取得良好的效果。消融实验验证了AOI训练策略的有效性,表明其能够有效地指导帧评分网络的训练。

🎯 应用场景

FrameRepeat框架具有广泛的应用前景,可用于提升各种视频理解任务的性能,例如视频问答、视频摘要、视频目标检测等。该方法尤其适用于需要长时间推理和依赖视觉信息的任务。此外,FrameRepeat还可以应用于机器人导航、自动驾驶等领域,帮助机器人更好地理解周围环境,做出更准确的决策。未来,该方法有望成为提升多模态大模型在视频领域应用能力的重要技术手段。

📄 摘要(原文)

Recently, Multimodal Large Language Models (MLLMs) have demonstrated significant potential in complex visual tasks through the integration of Chain-of-Thought (CoT) reasoning. However, in Video Question Answering, extended thinking processes do not consistently yield performance gains and may even lead to degradation due to ``visual anchor drifting'', where models increasingly rely on self-generated text, sidelining visual inputs and causing hallucinations. While existing mitigations typically introduce specific mechanisms for the model to re-attend to visual inputs during inference, these approaches often incur prohibitive training costs and suffer from poor generalizability across different architectures. To address this, we propose FrameRepeat, an automated enhancement framework which features a lightweight repeat scoring module that enables Video-LLMs to autonomously identify which frames should be reinforced. We introduce a novel training strategy, Add-One-In (AOI), that uses MLLM output probabilities to generate supervision signals representing repeat gain. This can be used to train a frame scoring network, which guides the frame repetition behavior. Experimental results across multiple models and datasets demonstrate that FrameRepeat is both effective and generalizable in strengthening important visual cues during the reasoning process.