SmartSight: Mitigating Hallucination in Video-LLMs Without Compromising Video Understanding via Temporal Attention Collapse
作者: Yiming Sun, Mi Zhang, Feifei Li, Geng Hong, Min Yang
分类: cs.CV
发布日期: 2025-12-21
备注: AAAI26 accepted
💡 一句话要点
SmartSight:通过时间注意力坍缩缓解视频大语言模型中的幻觉问题,同时提升视频理解能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视频大语言模型 幻觉缓解 时间注意力 视频理解 模型内省
📋 核心要点
- 现有Video-LLM缓解幻觉的方法通常会损害模型对视频的理解和推理能力。
- SmartSight利用模型自身的内省能力,通过时间注意力坍缩分数评估并减少幻觉。
- 实验表明,SmartSight在降低幻觉的同时,显著提升了视频理解和推理性能。
📝 摘要(中文)
近年来,视频大语言模型(Video-LLMs)发展迅速,但感知幻觉带来了严重的安全风险,极大地限制了其在现实世界中的应用。虽然已经提出了一些缓解幻觉的方法,但它们通常会损害模型对视频的理解和推理能力。本文提出了SmartSight,通过利用模型自身的内省能力,以一种无需训练的方式解决这个问题,这是一个开创性的步骤。具体来说,SmartSight生成多个候选响应,以发现通常被标准贪婪解码掩盖的低幻觉输出。它使用时间注意力坍缩分数来评估每个响应的幻觉程度,该分数衡量了模型在生成响应时是否过度关注输入视频中微不足道的时间区域。为了提高效率,SmartSight识别视觉注意力消失点,从而能够更准确地估计幻觉并提前终止幻觉响应,从而大大降低了解码成本。实验表明,SmartSight显著降低了Qwen2.5-VL-7B在VRIPT-HAL上的幻觉(降低10.59%),同时增强了视频理解和推理能力,在VideoMMMU上的性能提升高达8.86%。这些结果突显了SmartSight在提高开源Video-LLMs可靠性方面的有效性。
🔬 方法详解
问题定义:Video-LLM在生成视频描述或回答相关问题时,容易产生与视频内容不符的“幻觉”现象。现有缓解幻觉的方法,如数据增强或模型微调,往往会牺牲模型的视频理解能力,导致模型在其他视频理解任务上的性能下降。因此,如何在不损害视频理解能力的前提下,有效降低Video-LLM的幻觉是一个关键问题。
核心思路:SmartSight的核心思路是利用模型自身的注意力机制来检测和抑制幻觉。通过生成多个候选答案,并分析模型在生成每个答案时的时间注意力分布,判断模型是否过度关注视频中不重要的时间片段。如果模型过度关注这些片段,则认为该答案更可能包含幻觉。这种方法无需额外的训练数据或模型修改,而是利用模型自身的内省能力来识别和纠正幻觉。
技术框架:SmartSight主要包含以下几个阶段:1) 候选答案生成:使用不同的解码策略(如集束搜索)生成多个候选答案。2) 时间注意力坍缩分数计算:对于每个候选答案,计算其时间注意力坍缩分数,该分数反映了模型在生成答案时对视频时间维度的关注程度。3) 视觉注意力消失点识别:识别视觉注意力消失点,用于更准确地估计幻觉并提前终止幻觉响应。4) 幻觉评估与选择:根据时间注意力坍缩分数和视觉注意力消失点,评估每个候选答案的幻觉程度,并选择幻觉程度最低的答案作为最终输出。
关键创新:SmartSight的关键创新在于提出了一种无需训练的幻觉缓解方法,该方法利用模型自身的时间注意力机制来检测和抑制幻觉。与现有方法相比,SmartSight不会损害模型的视频理解能力,并且可以显著降低幻觉。此外,视觉注意力消失点的识别进一步提高了幻觉估计的准确性和效率。
关键设计:时间注意力坍缩分数的计算方式是关键。具体来说,它衡量了模型在生成答案时,注意力权重在时间维度上的分布均匀程度。如果注意力权重集中在少数几个时间片段上,则认为注意力坍缩程度较高,该答案更可能包含幻觉。视觉注意力消失点用于提前终止幻觉响应,减少计算量。具体实现细节(如时间注意力坍缩分数的具体计算公式、视觉注意力消失点的识别方法)在论文中有详细描述。
🖼️ 关键图片
📊 实验亮点
实验结果表明,SmartSight在VRIPT-HAL数据集上,将Qwen2.5-VL-7B模型的幻觉降低了10.59%,同时在VideoMMMU数据集上,视频理解和推理性能提升了高达8.86%。这些结果表明,SmartSight能够在不损害视频理解能力的前提下,有效降低Video-LLM的幻觉。
🎯 应用场景
SmartSight可应用于各种需要可靠视频理解的场景,例如视频监控、自动驾驶、智能客服和教育领域。通过降低Video-LLM的幻觉,可以提高这些应用的安全性和可靠性,从而更好地服务于人类社会。未来,该技术有望进一步推广到其他多模态任务中,提升AI系统的整体可信度。
📄 摘要(原文)
Despite Video Large Language Models having rapidly advanced in recent years, perceptual hallucinations pose a substantial safety risk, which severely restricts their real-world applicability. While several methods for hallucination mitigation have been proposed, they often compromise the model's capacity for video understanding and reasoning. In this work, we propose SmartSight, a pioneering step to address this issue in a training-free manner by leveraging the model's own introspective capabilities. Specifically, SmartSight generates multiple candidate responses to uncover low-hallucinated outputs that are often obscured by standard greedy decoding. It assesses the hallucination of each response using the Temporal Attention Collapse score, which measures whether the model over-focuses on trivial temporal regions of the input video when generating the response. To improve efficiency, SmartSight identifies the Visual Attention Vanishing point, enabling more accurate hallucination estimation and early termination of hallucinated responses, leading to a substantial reduction in decoding cost. Experiments show that SmartSight substantially lowers hallucinations for Qwen2.5-VL-7B by 10.59% on VRIPT-HAL, while simultaneously enhancing video understanding and reasoning, boosting performance on VideoMMMU by up to 8.86%. These results highlight SmartSight's effectiveness in improving the reliability of open-source Video-LLMs.