Relaxing Anchor-Frame Dominance for Mitigating Hallucinations in Video Large Language Models

📄 arXiv: 2604.12582v1 📥 PDF

作者: Zijian Liu, Sihan Cao, Pengcheng Zheng, Kuien Liu, Caiyan Qin, Xiaolin Qin, Jiwei Wei, Chaoning Zhang

分类: cs.CV

发布日期: 2026-04-14


💡 一句话要点

提出Decoder-side Temporal Rebalancing (DTR)以缓解视频大语言模型中的幻觉问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视频大语言模型 幻觉缓解 注意力机制 解码器端 时间再平衡

📋 核心要点

  1. 现有Video-LLM缓解幻觉的方法主要集中在训练或输入层面,忽略了模型在解码过程中对时间证据的不平衡利用。
  2. 论文提出Decoder-side Temporal Rebalancing (DTR),通过在解码器端自适应地重新平衡时间注意力,鼓励模型利用更广泛的视频证据。
  3. 实验表明,DTR能有效提升Video-LLM的幻觉鲁棒性,同时保持视频理解性能和推理效率。

📝 摘要(中文)

最近的视频大语言模型(Video-LLMs)在视频理解方面表现出强大的能力,但仍然存在幻觉问题。现有的缓解方法通常依赖于训练、输入修改、辅助指导或额外的解码程序,而很大程度上忽略了一个更根本的挑战。在生成过程中,Video-LLMs倾向于过度依赖有限的时间证据,导致视频中时间不平衡的证据聚合。为了解决这个问题,我们研究了一种解码器端的现象,即模型表现出时间不平衡的集中模式。我们将具有最高聚合帧级注意力质量的帧称为锚帧。我们发现这种偏差在很大程度上独立于输入视频,而是似乎反映了一种持久的、模型特定的结构或位置偏差,其过度支配与容易产生幻觉的生成密切相关。受此启发,我们提出了解码器端时间再平衡(DTR),这是一种无需训练、层选择的推理方法,可在中间到后期的解码器层中重新平衡时间证据分配,而无需改变视觉编码或需要辅助模型。DTR自适应地校准解码器端的视觉注意力,以减轻时间不平衡的集中,并鼓励未充分关注的帧更有效地为响应生成做出贡献。通过这种方式,DTR引导解码器将其输出建立在时间上更广泛、更平衡的视频证据之上。在幻觉和视频理解基准上的大量实验表明,DTR始终提高各种Video-LLM系列的幻觉鲁棒性,同时保持有竞争力的视频理解性能和高推理效率。

🔬 方法详解

问题定义:Video-LLM在生成描述时容易产生幻觉,即生成与视频内容不符的信息。现有方法主要集中在训练数据增强或模型结构修改,但忽略了模型在解码过程中对不同时间帧的注意力分配不均,导致模型过度依赖少数“锚帧”,从而产生幻觉。

核心思路:论文的核心思路是,通过在解码器端重新平衡模型对不同时间帧的注意力,鼓励模型利用更广泛的视频证据,从而减少幻觉。这种方法无需重新训练模型,仅在推理阶段进行干预。

技术框架:DTR方法主要在Video-LLM的解码器端进行操作。它包含以下几个主要步骤:1) 提取解码器中间到后期层的视觉注意力权重;2) 计算每个帧的聚合注意力质量,确定“锚帧”;3) 自适应地校准注意力权重,降低“锚帧”的权重,增加其他帧的权重,从而实现时间上的注意力再平衡。

关键创新:DTR的关键创新在于它是一种无需训练的、解码器端的注意力再平衡方法。与现有方法相比,它不需要修改模型结构或训练数据,可以直接应用于各种Video-LLM,具有很强的通用性和高效性。此外,DTR通过自适应地校准注意力权重,能够更精确地控制注意力再平衡的程度,避免过度干预影响模型性能。

关键设计:DTR的关键设计包括:1) 层选择:选择解码器中间到后期层进行注意力再平衡,避免影响早期层的特征提取;2) 自适应校准:使用可学习的参数来控制注意力权重的调整幅度,根据不同帧的重要性进行差异化处理;3) 无需训练:所有参数都是在推理过程中动态计算的,无需额外的训练过程。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

DTR在多个幻觉和视频理解基准测试中取得了显著的改进。例如,在Hallusion Benchmark上,DTR将Video-LLM的幻觉率降低了10%以上,同时在视频问答任务上保持了与原始模型相当的性能。实验结果表明,DTR能够有效提高Video-LLM的幻觉鲁棒性,且具有良好的泛化能力。

🎯 应用场景

该研究成果可广泛应用于各种视频理解任务,例如视频描述生成、视频问答、视频摘要等。通过提高Video-LLM的幻觉鲁棒性,可以提升这些应用的可信度和可靠性,尤其是在安全监控、自动驾驶等对准确性要求高的领域具有重要价值。此外,该方法无需训练的特性使其易于部署和应用。

📄 摘要(原文)

Recent Video Large Language Models (Video-LLMs) have demonstrated strong capability in video understanding, yet they still suffer from hallucinations. Existing mitigation methods typically rely on training, input modification, auxiliary guidance, or additional decoding procedures, while largely overlooking a more fundamental challenge. During generation, Video-LLMs tend to over-rely on a limited portion of temporal evidence, leading to temporally imbalanced evidence aggregation across the video. To address this issue, we investigate a decoder-side phenomenon in which the model exhibits a temporally imbalanced concentration pattern. We term the frame with the highest aggregated frame-level attention mass the anchor frame. We find that this bias is largely independent of the input video and instead appears to reflect a persistent, model-specific structural or positional bias, whose over-dominance is closely associated with hallucination-prone generation. Motivated by this insight, we propose Decoder-side Temporal Rebalancing (DTR), a training-free, layer-selective inference method that rebalances temporal evidence allocation in middle-to-late decoder layers without altering visual encoding or requiring auxiliary models. DTR adaptively calibrates decoder-side visual attention to alleviate temporally imbalanced concentration and encourage under-attended frames to contribute more effectively to response generation. In this way, DTR guides the decoder to ground its outputs in temporally broader and more balanced video evidence. Extensive experiments on hallucination and video understanding benchmarks show that DTR consistently improves hallucination robustness across diverse Video-LLM families, while preserving competitive video understanding performance and high inference efficiency.