TARAC: Mitigating Hallucination in LVLMs via Temporal Attention Real-time Accumulative Connection
作者: Chunzhao Xie, Tongxuan Liu, Lei Jiang, Yuting Zeng, jinrong Guo, Yunheng Shen, Weizhe Huang, Jing Li, Xiaohua Xu
分类: cs.CV, cs.AI
发布日期: 2025-04-05
💡 一句话要点
提出TARAC,通过时序注意力累积连接缓解LVLM中的幻觉问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉语言模型 幻觉缓解 注意力机制 时序建模 免训练方法
📋 核心要点
- 现有LVLM面临幻觉问题,源于语言模型、视觉编码器和多模态数据的固有缺陷。
- TARAC通过动态累积和更新模型对图像token的注意力,缓解注意力衰减导致的幻觉。
- 实验表明,TARAC在多个模型和数据集上有效降低了幻觉,性能优于VCD等基线方法。
📝 摘要(中文)
大型视觉语言模型(LVLM)在各种任务中表现出卓越的性能,但幻觉问题限制了它们的实际应用。幻觉问题源于多种因素,包括语言模型固有的幻觉、视觉编码器在感知方面的局限性以及多模态数据引入的偏差。大量研究探索了缓解幻觉的方法。例如,OPERA阻止模型过度关注“锚定token”,从而减少幻觉,而VCD通过采用对比解码方法来缓解幻觉。本文研究了图像token的注意力衰减与幻觉发生之间的相关性。基于这一发现,我们提出了一种新颖的免训练方法——时序注意力实时累积连接(TARAC),该方法在生成过程中动态累积和更新LVLM对图像token的注意力。通过增强模型对图像token的注意力,TARAC减轻了由图像token注意力衰减引起的幻觉。我们在多个模型和数据集上验证了TARAC的有效性,证明我们的方法可以显著减轻幻觉。特别是在CHAIR基准测试中,TARAC相比VCD,将$C_S$降低了25.2,将$C_I$降低了8.7。
🔬 方法详解
问题定义:LVLM在生成文本时,容易产生与图像内容不符的幻觉,限制了其应用。现有方法如OPERA和VCD试图缓解幻觉,但仍存在改进空间。论文关注图像token的注意力衰减与幻觉之间的关系,认为注意力衰减是导致幻觉的重要原因。
核心思路:核心思想是,在LVLM生成文本的过程中,动态地累积和更新模型对图像token的注意力。通过保持模型对图像token的持续关注,可以减少因注意力衰减而产生的幻觉。这种方法无需重新训练模型,易于部署和应用。
技术框架:TARAC是一种训练-free的方法,直接作用于LVLM的推理阶段。它主要包含一个时序注意力累积模块,该模块在每个生成步骤中,根据当前步骤的注意力权重,对历史的图像token注意力进行累积和更新。更新后的注意力权重将用于指导下一个token的生成,从而保持模型对图像信息的关注。
关键创新:关键创新在于提出了时序注意力累积连接(Temporal Attention Real-time Accumulative Connection)机制。与现有方法不同,TARAC不是通过修改模型结构或训练方式来缓解幻觉,而是通过动态调整注意力权重,在推理过程中实时增强模型对图像信息的感知。
关键设计:TARAC的关键设计在于如何有效地累积和更新注意力权重。具体实现细节未知,但可以推测可能涉及到对历史注意力权重的加权平均,以及对当前注意力权重的归一化处理。具体的权重计算公式和参数设置可能需要根据不同的LVLM进行调整。
🖼️ 关键图片
📊 实验亮点
实验结果表明,TARAC在多个模型和数据集上显著降低了LVLM的幻觉。在CHAIR基准测试中,TARAC相比VCD,将$C_S$(语义一致性)降低了25.2,将$C_I$(图像一致性)降低了8.7。这些数据表明,TARAC在缓解幻觉方面具有显著优势。
🎯 应用场景
TARAC可应用于各种需要减少幻觉的视觉语言任务,例如图像描述、视觉问答、视觉对话等。该方法能够提高生成文本的准确性和可靠性,增强用户体验,并促进LVLM在实际场景中的应用,例如智能客服、自动驾驶、医疗诊断等。
📄 摘要(原文)
Large Vision-Language Models have demonstrated remarkable performance across various tasks; however, the challenge of hallucinations constrains their practical applications. The hallucination problem arises from multiple factors, including the inherent hallucinations in language models, the limitations of visual encoders in perception, and biases introduced by multimodal data. Extensive research has explored ways to mitigate hallucinations. For instance, OPERA prevents the model from overly focusing on "anchor tokens", thereby reducing hallucinations, whereas VCD mitigates hallucinations by employing a contrastive decoding approach. In this paper, we investigate the correlation between the decay of attention to image tokens and the occurrence of hallucinations. Based on this finding, we propose Temporal Attention Real-time Accumulative Connection (TARAC), a novel training-free method that dynamically accumulates and updates LVLMs' attention on image tokens during generation. By enhancing the model's attention to image tokens, TARAC mitigates hallucinations caused by the decay of attention on image tokens. We validate the effectiveness of TARAC across multiple models and datasets, demonstrating that our approach substantially mitigates hallucinations. In particular, TARAC reduces $C_S$ by 25.2 and $C_I$ by 8.7 compared to VCD on the CHAIR benchmark.