Detecting Misbehaviors of Large Vision-Language Models by Evidential Uncertainty Quantification
作者: Tao Huang, Rui Wang, Xiaofei Liu, Yi Qin, Li Duan, Liping Jing
分类: cs.LG
发布日期: 2026-02-28
💡 一句话要点
提出证据不确定性量化方法,用于检测大型视觉-语言模型的不良行为
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉-语言模型 不良行为检测 不确定性量化 证据理论 认知不确定性
📋 核心要点
- 大型视觉-语言模型易受对抗样本和知识冲突影响,产生幻觉或有害内容,现有不确定性量化方法难以有效识别这些不良行为。
- 提出证据不确定性量化(EUQ)方法,将模型输出特征视为支持或反对证据,利用证据理论量化内部冲突和知识差距。
- 实验表明,EUQ在检测幻觉、越狱、对抗性攻击和OOD失败方面优于现有方法,并能分析内部表征的演变过程。
📝 摘要(中文)
大型视觉-语言模型(LVLMs)在多模态理解和生成方面取得了显著进展。然而,当面对不胜任或对抗性输入时,它们经常产生不可靠甚至有害的内容,例如事实幻觉或危险指令。这种与人类期望的不一致,被称为LVLMs的“不良行为”,引起了在关键应用中部署的严重担忧。这些不良行为源于认知不确定性,特别是内部知识冲突或缺乏支持信息。然而,现有的不确定性量化方法通常只捕捉整体认知不确定性,在识别此类问题方面的效果有限。为了解决这一差距,我们提出了一种细粒度的方法,即证据不确定性量化(EUQ),它捕捉信息冲突和无知,以有效检测LVLM的不良行为。特别地,我们将模型输出头的特征解释为支持(正)或反对(负)证据。利用证据理论,我们对这些证据进行建模和聚合,以量化单个前向传递中的内部冲突和知识差距。我们使用最先进的LVLM,在包括幻觉、越狱、对抗性漏洞和分布外(OOD)失败在内的四个类别的不良行为中广泛评估了我们的方法,发现EUQ始终优于强大的基线,表明幻觉对应于高度内部冲突,而OOD失败对应于高度无知。此外,逐层证据不确定性动态分析有助于从新的角度解释内部表征的演变。源代码可在该https URL上获得。
🔬 方法详解
问题定义:大型视觉-语言模型(LVLMs)在实际应用中面临着产生幻觉、易受对抗攻击、越狱等不良行为的挑战。现有的不确定性量化方法通常只能捕捉整体的不确定性,无法有效区分不同类型的不良行为,例如知识冲突和信息缺失,因此在检测和缓解这些问题上效果有限。
核心思路:论文的核心思路是将LVLM的输出特征视为证据,并利用证据理论来量化模型内部的冲突和不确定性。通过将特征分解为支持性证据和反对性证据,可以更细粒度地评估模型对特定输入的置信度,从而区分不同类型的不良行为。这种方法能够更好地捕捉模型内部的认知不确定性,从而提高不良行为的检测准确率。
技术框架:EUQ方法主要包含以下几个步骤:1) 从LVLM的输出头提取特征;2) 将特征解释为支持性(positive)或反对性(negative)证据;3) 利用证据理论对这些证据进行建模和聚合,计算内部冲突和知识差距;4) 基于计算得到的不确定性指标,判断模型是否存在不良行为。整个过程只需要一次前向传播,计算效率较高。
关键创新:该方法最重要的创新点在于将证据理论引入到LVLM的不确定性量化中,从而实现了对模型内部冲突和知识差距的细粒度建模。与传统的整体不确定性量化方法相比,EUQ能够更准确地识别不同类型的不良行为,并提供更丰富的解释信息。
关键设计:在具体实现上,论文可能涉及以下关键设计:如何将模型输出特征映射为证据(例如,通过线性变换或非线性激活函数);如何选择合适的证据理论模型(例如,Dempster-Shafer证据理论);如何定义和计算内部冲突和知识差距的指标;以及如何设置阈值来判断模型是否存在不良行为。这些细节将直接影响EUQ方法的性能。
🖼️ 关键图片
📊 实验亮点
实验结果表明,EUQ方法在检测幻觉、越狱、对抗性攻击和OOD失败等多种不良行为方面均优于现有方法。具体来说,EUQ能够有效区分幻觉(对应于高内部冲突)和OOD失败(对应于高无知),并且能够通过逐层分析揭示内部表征的演变过程。性能提升的具体数值未知,但摘要强调了“consistently outperforms strong baselines”。
🎯 应用场景
该研究成果可应用于提升大型视觉-语言模型在安全关键领域的可靠性,例如自动驾驶、医疗诊断和金融风控。通过有效检测模型的不良行为,可以降低模型产生错误或有害输出的风险,从而提高系统的整体安全性和可信度。此外,该方法还可以用于模型的调试和改进,帮助开发者更好地理解模型的内部运作机制。
📄 摘要(原文)
%Large vision-language models (LVLMs) have shown substantial advances in multimodal understanding and generation. However, when presented with incompetent or adversarial inputs, they frequently produce unreliable or even harmful content, such as fact hallucinations or dangerous instructions. This misalignment with human expectations, referred to as \emph{misbehaviors} of LVLMs, raises serious concerns for deployment in critical applications. These misbehaviors are found to stem from epistemic uncertainty, specifically either conflicting internal knowledge or the absence of supporting information. However, existing uncertainty quantification methods, which typically capture only overall epistemic uncertainty, have shown limited effectiveness in identifying such issues. To address this gap, we propose Evidential Uncertainty Quantification (EUQ), a fine-grained method that captures both information conflict and ignorance for effective detection of LVLM misbehaviors. In particular, we interpret features from the model output head as either supporting (positive) or opposing (negative) evidence. Leveraging Evidence Theory, we model and aggregate this evidence to quantify internal conflict and knowledge gaps within a single forward pass. %We extensively evaluate our method across four categories of misbehavior, including hallucinations, jailbreaks, adversarial vulnerabilities, and out-of-distribution (OOD) failures, using state-of-the-art LVLMs, and find that EUQ consistently outperforms strong baselines, showing that hallucinations correspond to high internal conflict and OOD failures to high ignorance. Furthermore, layer-wise evidential uncertainty dynamics analysis helps interpret the evolution of internal representations from a new perspective. The source code is available atthis https URL.