STEAR: Layer-Aware Spatiotemporal Evidence Intervention for Hallucination Mitigation in Video Large Language Models

📄 arXiv: 2604.03045 📥 PDF

作者: Linfeng Fan, Yuan Tian, Ziwei Li, Zhiwu Lu

分类: cs.CV, cs.MM

发布日期: 2026-04-06


💡 一句话要点

提出STEAR:层感知时空证据干预,缓解视频大语言模型中的幻觉问题

🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视频大语言模型 时空幻觉 层感知干预 视觉基础 反事实推理 时间一致性 单编码推理

📋 核心要点

  1. 现有Video-LLM易产生时空幻觉,生成视觉上无依据的细节或错误的时间关系,缺乏针对性的校正。
  2. STEAR通过层感知的时空证据干预,在中间层恢复局部视觉基础,并在后期层构建反事实来纠正推理。
  3. 实验表明,STEAR能有效减少幻觉,提升Video-LLM的忠实性、时间一致性和鲁棒性。

📝 摘要(中文)

视频大语言模型(Video-LLMs)仍然容易产生时空幻觉,经常生成视觉上不支持的细节或不正确的时间关系。现有的缓解方法通常将幻觉视为一种统一的解码失败,应用全局共享的校正规则。我们观察到,解码器层对视觉基础和后续的语言组合的贡献不同,表明干预必须是层感知的。基于此,我们提出了STEAR,一个层感知的时空证据干预框架。STEAR识别高风险的解码步骤,并从对基础敏感的中间层选择token条件下的视觉证据。它将这些共享的证据用于两个目的:恢复中间层中缺失的局部基础,并构建时间扰动的patch级别反事实,以证伪后期解码层中的不一致推理。因此,STEAR在高效的单编码推理框架内缓解了空间和时间幻觉。在代表性的Video-LLM骨干网络和具有挑战性的基准测试上的实验表明,STEAR始终如一地减少幻觉,同时提高了忠实性、时间一致性和鲁棒性。我们的结果证实,可靠的视频解码依赖于在正确的层上干预精确的证据,而不是强制执行全局惩罚。

🔬 方法详解

问题定义:Video-LLM在理解视频内容时,容易产生时空幻觉,即生成与视频内容不符的细节或错误的时间关系。现有方法通常将幻觉视为统一的解码失败,采用全局共享的校正规则,忽略了不同解码层的作用差异。

核心思路:论文的核心思路是,解码器不同层对视觉基础和语言组合的贡献不同,因此需要进行层感知的干预。通过在中间层恢复缺失的局部视觉基础,并在后期层构建时间扰动的反事实,来缓解空间和时间幻觉。

技术框架:STEAR框架包含以下主要模块:1) 识别高风险解码步骤;2) 从中间层选择token条件下的视觉证据;3) 利用视觉证据恢复中间层缺失的局部基础;4) 构建时间扰动的patch级别反事实,用于后期解码层的不一致推理验证。整个过程在单编码推理框架内完成。

关键创新:STEAR的关键创新在于层感知的干预策略。它不是简单地对所有层应用相同的校正规则,而是根据不同层的特点,选择性地干预中间层和后期层,从而更有效地缓解幻觉问题。此外,利用时间扰动构建反事实也是一个创新点,可以有效检测和纠正时间上的不一致性。

关键设计:STEAR的关键设计包括:1) 如何识别高风险解码步骤(具体方法未知);2) 如何选择token条件下的视觉证据(具体方法未知);3) 如何构建时间扰动的patch级别反事实(具体方法未知);4) 如何将恢复的局部基础和反事实信息融入到解码过程中(具体方法未知)。这些细节需要在论文正文中进一步查找。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,STEAR在多个具有挑战性的基准测试中,显著减少了Video-LLM的幻觉,同时提高了模型的忠实性、时间一致性和鲁棒性。具体的性能提升数据需要在论文正文中查找。

🎯 应用场景

该研究成果可应用于各种需要可靠视频理解的场景,例如视频监控、自动驾驶、智能客服、视频内容审核等。通过减少Video-LLM的幻觉,可以提高这些应用的可信度和安全性,并为用户提供更准确的信息。

📄 摘要(原文)

Video Large Language Models (Video-LLMs) remain prone to spatiotemporal hallucinations, often generating visually unsupported details or incorrect temporal relations. Existing mitigation methods typically treat hallucination as a uniform decoding failure, applying globally shared correction rules. We instead observe that decoder layers contribute differently to visual grounding and later linguistic composition, indicating that intervention must be layer-aware. Based on this insight, we propose STEAR, a layer-aware spatiotemporal evidence intervention framework. STEAR identifies high-risk decoding steps and selects token-conditioned visual evidence from grounding-sensitive middle layers. It uses this shared evidence for two coupled purposes: restoring missing local grounding in middle layers, and constructing temporally perturbed patch-level counterfactuals to falsify inconsistent reasoning during late-layer decoding. Consequently, STEAR mitigates both spatial and temporal hallucinations within an efficient single-encode inference framework. Experiments across representative Video-LLM backbones and challenging benchmarks demonstrate that STEAR consistently reduces hallucinations while improving faithfulness, temporal consistency, and robustness. Our results confirm that reliable video decoding relies on intervening on precise evidence at the right layer, rather than enforcing a global penalty. The code is provided in the Supplementary Material.