Detecting Misbehaviors of Large Vision-Language Models by Evidential Uncertainty Quantification
作者: Tao Huang, Rui Wang, Xiaofei Liu, Yi Qin, Li Duan, Liping Jing
分类: cs.LG
发布日期: 2026-02-05
备注: Accepted to ICLR 2026. Code is available at https://github.com/HT86159/EUQ
🔗 代码/项目: GITHUB
💡 一句话要点
提出Evidential Uncertainty Quantification (EUQ)方法,用于检测大视觉语言模型的不良行为。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉语言模型 不确定性量化 证据理论 不良行为检测 幻觉检测
📋 核心要点
- 大型视觉语言模型易产生幻觉、越狱等不良行为,源于认知不确定性,现有不确定性量化方法难以有效识别。
- 提出Evidential Uncertainty Quantification (EUQ)方法,将模型输出特征视为正反证据,利用证据理论量化内部冲突和知识差距。
- 实验表明,EUQ在检测幻觉、越狱、对抗攻击和OOD失败等方面优于现有方法,并能分析内部表征的演变过程。
📝 摘要(中文)
大型视觉语言模型(LVLMs)在多模态理解和生成方面取得了显著进展。然而,当面对不胜任或对抗性输入时,它们经常产生不可靠甚至有害的内容,例如事实幻觉或危险指令。这种与人类期望的不一致,被称为LVLMs的“不良行为”,引起了在关键应用中部署的严重担忧。这些不良行为源于认知不确定性,特别是内部知识冲突或缺乏支持信息。然而,现有的不确定性量化方法通常只捕捉整体认知不确定性,在识别此类问题方面的效果有限。为了解决这个问题,我们提出了一种细粒度的方法Evidential Uncertainty Quantification (EUQ),它捕捉信息冲突和无知,以有效检测LVLM的不良行为。特别是,我们将模型输出头的特征解释为支持(正)或反对(负)证据。利用证据理论,我们对这些证据进行建模和聚合,以量化单个前向传递中的内部冲突和知识差距。我们使用最先进的LVLM,在包括幻觉、越狱、对抗性漏洞和分布外(OOD)失败在内的四类不良行为中广泛评估了我们的方法,发现EUQ始终优于强大的基线,表明幻觉对应于高内部冲突,而OOD失败对应于高无知。此外,逐层证据不确定性动态分析有助于从新的角度解释内部表征的演变。源代码可在https://github.com/HT86159/EUQ获得。
🔬 方法详解
问题定义:论文旨在解决大型视觉语言模型(LVLMs)在面对不确定或对抗性输入时产生的不良行为,例如幻觉、越狱攻击和分布外(OOD)泛化失败等问题。现有不确定性量化方法通常只能捕捉整体的认知不确定性,无法有效区分内部知识冲突和知识缺失,因此难以准确识别这些不良行为。
核心思路:论文的核心思路是将模型输出头的特征解释为支持性(positive)或反对性(negative)的证据,并利用证据理论(Evidence Theory)对这些证据进行建模和聚合。通过量化内部冲突(information conflict)和知识差距(ignorance),从而更细粒度地评估模型的不确定性,进而检测不良行为。这种方法能够区分不同类型的不确定性来源,例如幻觉对应于高内部冲突,而OOD失败对应于高知识缺失。
技术框架:EUQ的技术框架主要包含以下几个阶段:1. 特征提取:从LVLM的输出头提取特征向量。2. 证据解释:将特征向量中的每个元素解释为支持或反对特定假设的证据。3. 证据建模:使用证据理论对这些证据进行建模,例如使用Dempster-Shafer证据理论。4. 不确定性量化:基于证据模型,计算内部冲突和知识差距,作为不确定性的度量。5. 不良行为检测:根据不确定性度量,判断模型是否存在不良行为。
关键创新:EUQ的关键创新在于:1. 细粒度不确定性量化:能够区分内部冲突和知识缺失,提供更细粒度的不确定性评估。2. 证据理论的应用:将证据理论引入LVLM的不确定性量化,为建模和聚合证据提供了一种新的视角。3. 可解释性:通过分析逐层证据不确定性动态,可以更好地理解模型内部表征的演变过程。
关键设计:论文的关键设计包括:1. 特征选择:选择合适的模型输出头特征作为证据来源。2. 证据建模方法:选择合适的证据理论方法,例如Dempster-Shafer证据理论,以及相应的参数设置。3. 不确定性度量:设计合适的内部冲突和知识差距的计算公式。4. 阈值设定:设定合适的不确定性阈值,用于判断模型是否存在不良行为。
🖼️ 关键图片
📊 实验亮点
实验结果表明,EUQ在检测幻觉、越狱、对抗攻击和OOD失败等四类不良行为方面,始终优于现有的不确定性量化方法。具体来说,EUQ能够有效区分幻觉(对应高内部冲突)和OOD失败(对应高知识缺失),并且通过逐层证据不确定性动态分析,可以更好地理解模型内部表征的演变过程。代码已开源。
🎯 应用场景
该研究成果可应用于提升大型视觉语言模型在安全关键领域的可靠性,例如自动驾驶、医疗诊断和金融风控等。通过检测模型的不良行为,可以有效避免模型产生错误或有害的输出,从而提高系统的安全性和可信度。此外,该方法还可以用于评估和比较不同LVLM的鲁棒性和可靠性,为模型选择和优化提供依据。
📄 摘要(原文)
Large vision-language models (LVLMs) have shown substantial advances in multimodal understanding and generation. However, when presented with incompetent or adversarial inputs, they frequently produce unreliable or even harmful content, such as fact hallucinations or dangerous instructions. This misalignment with human expectations, referred to as \emph{misbehaviors} of LVLMs, raises serious concerns for deployment in critical applications. These misbehaviors are found to stem from epistemic uncertainty, specifically either conflicting internal knowledge or the absence of supporting information. However, existing uncertainty quantification methods, which typically capture only overall epistemic uncertainty, have shown limited effectiveness in identifying such issues. To address this gap, we propose Evidential Uncertainty Quantification (EUQ), a fine-grained method that captures both information conflict and ignorance for effective detection of LVLM misbehaviors. In particular, we interpret features from the model output head as either supporting (positive) or opposing (negative) evidence. Leveraging Evidence Theory, we model and aggregate this evidence to quantify internal conflict and knowledge gaps within a single forward pass. We extensively evaluate our method across four categories of misbehavior, including hallucinations, jailbreaks, adversarial vulnerabilities, and out-of-distribution (OOD) failures, using state-of-the-art LVLMs, and find that EUQ consistently outperforms strong baselines, showing that hallucinations correspond to high internal conflict and OOD failures to high ignorance. Furthermore, layer-wise evidential uncertainty dynamics analysis helps interpret the evolution of internal representations from a new perspective. The source code is available at https://github.com/HT86159/EUQ.