Look Twice Before You Answer: Memory-Space Visual Retracing for Hallucination Mitigation in Multimodal Large Language Models

作者: Xin Zou, Yizhou Wang, Yibo Yan, Yuanhuiyi Lyu, Kening Zheng, Sirui Huang, Junkai Chen, Peijie Jiang, Jia Liu, Chang Tang, Xuming Hu

分类: cs.CV

发布日期: 2024-10-04 (更新: 2025-05-08)

备注: Accepted by ICML 2025

🔗 代码/项目: GITHUB

💡 一句话要点

提出MemVR，通过视觉重溯缓解多模态大语言模型中的幻觉问题

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 幻觉缓解 视觉重溯 键-值记忆 事实对齐

📋 核心要点

多模态大语言模型易受视觉token影响，产生与输入不符的幻觉，现有方法对此缺乏有效应对。
MemVR模拟人类认知，在模型不确定时，将视觉token作为“键-值记忆”重新注入，增强事实对齐。
实验表明，MemVR能显著减轻多种MLLM的幻觉，并在通用基准测试中表现出色，且无额外时间开销。

📝 摘要（中文）

多模态大语言模型(MLLM)虽然展现了强大的能力，但容易产生幻觉，即生成的内容无意义或与输入源不符。与LLM不同，MLLM中的幻觉通常源于文本解码器对视觉token的敏感性，导致一种类似于视觉信息“失忆”的现象。为了解决这个问题，我们提出MemVR，一种受认知启发的新型解码范式：当忘记之前看到的图像时，人们会再次查看它以获得事实性的答案。遵循这一原则，我们将视觉token视为补充证据，通过前馈网络(FFN)将它们作为“键-值记忆”重新注入到MLLM的中间触发层。这种“看两次”的机制发生在模型在推理过程中表现出高度不确定性时，有效地增强了事实对齐。全面的实验评估表明，MemVR显著减轻了各种MLLM中的幻觉，并在通用基准测试中表现出色，且不产生额外的时间开销。

🔬 方法详解

问题定义：论文旨在解决多模态大语言模型（MLLM）中存在的幻觉问题，即模型生成的内容与输入图像不符或无意义。现有的MLLM在处理视觉信息时，文本解码器容易对视觉token产生“失忆”现象，导致模型无法准确利用视觉信息进行推理和生成。这种对视觉信息的遗忘是导致幻觉的主要原因之一。

核心思路：MemVR的核心思路是模拟人类的认知过程，即当人们忘记之前看到的图像时，会再次查看图像以获取准确的事实信息。因此，MemVR在模型推理过程中，当模型表现出高度不确定性时，会重新利用视觉token作为补充证据，增强模型对视觉信息的记忆和理解。

技术框架：MemVR的技术框架主要包括以下几个步骤：1. 正常的MLLM前向推理过程。2. 在中间的触发层（trigger layer）检测模型的不确定性。3. 如果不确定性超过阈值，则通过前馈网络（FFN）将视觉token作为“键-值记忆”重新注入到该层。4. 继续进行后续的解码过程。这个过程可以看作是让模型“看两次”图像，从而更好地理解视觉信息。

关键创新：MemVR的关键创新在于其“看两次”的机制，即在模型推理过程中，根据模型的不确定性动态地重新利用视觉信息。与现有方法不同，MemVR不是简单地增加视觉信息的权重，而是有选择性地在模型需要的时候重新注入视觉信息，从而更有效地利用视觉信息，减少幻觉的产生。

关键设计：MemVR的关键设计包括：1. 触发层的位置选择：选择中间层作为触发层，以便在模型已经处理了一部分信息后，根据模型的状态决定是否需要重新注入视觉信息。2. 不确定性的度量：使用交叉熵损失函数来衡量模型的不确定性。3. 视觉token的注入方式：通过前馈网络（FFN）将视觉token作为“键-值记忆”注入到触发层，以便模型能够更好地利用这些信息。

🖼️ 关键图片

📊 实验亮点

实验结果表明，MemVR在多个基准测试中显著降低了MLLM的幻觉。例如，在Hallusion Benchmark上，MemVR将幻觉率降低了10%以上。同时，MemVR在VQA和Image Captioning等通用任务上也取得了与基线模型相当甚至更好的性能，且没有引入额外的时间开销。

🎯 应用场景

MemVR可应用于各种需要高度事实准确性的多模态大语言模型应用场景，例如：图像描述生成、视觉问答、机器人导航、医疗诊断等。通过减少幻觉，MemVR能够提高这些应用的可靠性和实用性，并有望推动多模态人工智能技术在更广泛领域的应用。

📄 摘要（原文）

Despite their impressive capabilities, multimodal large language models (MLLMs) are prone to hallucinations, i.e., the generated content that is nonsensical or unfaithful to input sources. Unlike in LLMs, hallucinations in MLLMs often stem from the sensitivity of text decoder to visual tokens, leading to a phenomenon akin to "amnesia" about visual information. To address this issue, we propose MemVR, a novel decoding paradigm inspired by common cognition: when the memory of an image seen the moment before is forgotten, people will look at it again for factual answers. Following this principle, we treat visual tokens as supplementary evidence, re-injecting them into the MLLM through Feed Forward Network (FFN) as "key-value memory" at the middle trigger layer. This "look-twice" mechanism occurs when the model exhibits high uncertainty during inference, effectively enhancing factual alignment. Comprehensive experimental evaluations demonstrate that MemVR significantly mitigates hallucination across various MLLMs and excels in general benchmarks without incurring additional time overhead. The implementation is available from https://github.com/1zhou-Wang/MemVR

Look Twice Before You Answer: Memory-Space Visual Retracing for Hallucination Mitigation in Multimodal Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理