Steering the Verifiability of Multimodal AI Hallucinations

📄 arXiv: 2604.06714v1 📥 PDF

作者: Jianhong Pang, Ruoxi Cheng, Ziyi Ye, Xingjun Ma, Zuxuan Wu, Xuanjing Huang, Yu-Gang Jiang

分类: cs.AI, cs.CL, cs.CV, cs.LG

发布日期: 2026-04-08


💡 一句话要点

提出一种激活空间干预方法,用于控制多模态AI幻觉的可验证性。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 AI幻觉 可验证性 激活空间干预 大语言模型

📋 核心要点

  1. 多模态大语言模型易产生幻觉,且幻觉的可验证性不同,现有方法缺乏对幻觉可验证性的控制。
  2. 提出激活空间干预方法,为明显和难以捉摸的幻觉学习单独探针,实现细粒度可验证性控制。
  3. 实验表明,该方法能有效调节幻觉的可验证性,混合干预措施可灵活控制不同场景的需求。

📝 摘要(中文)

由多模态大型语言模型(MLLM)驱动的AI应用容易产生幻觉,对人类用户构成相当大的风险。这些幻觉的问题程度各不相同:有些幻觉内容容易被人类用户检测到(即明显的幻觉),而另一些则经常被忽略或需要更多的验证工作(即难以捉摸的幻觉)。这表明多模态AI幻觉的可验证性差异很大。然而,很少有研究探讨如何为具有不同安全性和可用性需求的AI应用控制这一属性。为了解决这个差距,我们从4470个人类对AI生成的幻觉的反应中构建了一个数据集,并根据人类用户的可验证性将这些幻觉分为明显和难以捉摸的类型。此外,我们提出了一种激活空间干预方法,该方法为明显和难以捉摸的幻觉学习单独的探针。我们发现,明显和难以捉摸的幻觉会引发不同的干预探针,从而可以对模型的可验证性进行细粒度控制。实验结果表明了该方法的有效性,并表明有针对性的干预在调节相应的可验证性方面产生了优越的性能。此外,简单地混合这些干预措施可以灵活地控制不同场景所需的可验证性。

🔬 方法详解

问题定义:论文旨在解决多模态大型语言模型(MLLM)中幻觉的可验证性控制问题。现有的MLLM容易产生幻觉,但这些幻觉的可验证性各不相同,有些容易被人类发现,有些则难以察觉。现有方法缺乏对幻觉可验证性的有效控制,无法满足不同安全性和可用性需求的AI应用。

核心思路:论文的核心思路是通过激活空间干预,学习区分明显幻觉和难以捉摸幻觉的探针,从而实现对幻觉可验证性的细粒度控制。通过干预模型的激活空间,可以有选择性地抑制或增强特定类型的幻觉,从而调节模型整体的可验证性。

技术框架:整体框架包括以下几个主要步骤:1) 构建包含人类对AI生成幻觉反应的数据集,并根据可验证性将幻觉分为明显和难以捉摸两类;2) 训练用于识别不同类型幻觉的探针,这些探针作用于模型的激活空间;3) 通过干预模型的激活空间,调节不同类型幻觉的生成概率,从而控制模型的可验证性。

关键创新:论文的关键创新在于提出了激活空间干预方法,该方法能够学习区分不同类型幻觉的探针,并利用这些探针实现对幻觉可验证性的细粒度控制。与现有方法相比,该方法能够更精确地调节模型的行为,从而满足不同应用场景的需求。

关键设计:论文的关键设计包括:1) 构建高质量的幻觉数据集,并进行细致的标注;2) 设计有效的探针训练方法,确保探针能够准确识别不同类型的幻觉;3) 设计灵活的干预策略,允许用户根据需求调节不同类型幻觉的生成概率。具体的参数设置、损失函数和网络结构等细节在论文中有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,提出的激活空间干预方法能够有效调节多模态AI幻觉的可验证性。通过有针对性的干预,可以显著降低难以捉摸的幻觉的生成概率,同时保持或提高模型在其他任务上的性能。此外,简单地混合不同类型的干预措施,可以灵活地控制不同场景所需的可验证性。具体性能数据和对比基线在论文中有详细展示。

🎯 应用场景

该研究成果可应用于各种需要控制AI幻觉的场景,例如自动驾驶、医疗诊断、金融风控等。通过调节AI系统的幻觉可验证性,可以提高系统的安全性、可靠性和用户体验。例如,在安全要求高的场景中,可以降低难以捉摸的幻觉的概率,提高系统的可信度。在需要创造力的场景中,可以适当增加难以捉摸的幻觉的概率,激发AI的创新能力。未来,该研究有望推动AI技术在更多领域的应用。

📄 摘要(原文)

AI applications driven by multimodal large language models (MLLMs) are prone to hallucinations and pose considerable risks to human users. Crucially, such hallucinations are not equally problematic: some hallucination contents could be detected by human users(i.e., obvious hallucinations), while others are often missed or require more verification effort(i.e., elusive hallucinations). This indicates that multimodal AI hallucinations vary significantly in their verifiability. Yet, little research has explored how to control this property for AI applications with diverse security and usability demands. To address this gap, we construct a dataset from 4,470 human responses to AI-generated hallucinations and categorize these hallucinations into obvious and elusive types based on their verifiability by human users. Further, we propose an activation-space intervention method that learns separate probes for obvious and elusive hallucinations. We reveal that obvious and elusive hallucinations elicit different intervention probes, allowing for fine-grained control over the model's verifiability. Empirical results demonstrate the efficacy of this approach and show that targeted interventions yield superior performance in regulating corresponding verifiability. Moreover, simply mixing these interventions enables flexible control over the verifiability required for different scenarios.