Uncertainty Quantification for Multimodal Large Language Models with Incoherence-adjusted Semantic Volume

作者: Gregory Kang Ruey Lau, Hieu Dao, Nicole Kan Hui Lin, Bryan Kian Hsiang Low

分类: cs.AI, cs.CL, cs.CV, cs.LG

发布日期: 2026-02-27

备注: Earlier versions presented at ICLR 2025 QUESTION workshop and ICML 2025 R2-FM workshop

💡 一句话要点

提出UMPIRE框架，通过不一致性调整的语义体积量化多模态大语言模型的不确定性

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 不确定性量化 语义体积 不一致性调整 错误检测 模型校准 对抗攻击 分布外泛化

📋 核心要点

现有的多模态大语言模型不确定性度量方法存在模态特定、依赖外部工具和计算成本高等问题。
UMPIRE框架通过计算模型内部特征空间中响应的不一致性调整语义体积来量化不确定性。
实验表明，UMPIRE在多种模态和任务上优于现有方法，并能推广到非文本输出任务。

📝 摘要（中文）

多模态大语言模型(MLLM)虽然能力强大，但可能产生看似合理但错误的输出，阻碍了可靠部署。准确的不确定性度量可以使不可靠的查询升级到人工专家或更大的模型，从而提高性能。然而，现有的不确定性度量存在实际限制，例如仅为特定模态设计、依赖外部工具或计算成本高昂。我们引入UMPIRE，这是一个无需训练的MLLM不确定性量化框架，它可以在各种输入和输出模态上高效工作，无需外部工具，仅依赖于模型自身的内部模态特征。UMPIRE计算给定任务实例的采样MLLM响应的不一致性调整语义体积，有效地捕获样本的全局语义多样性和基于内部模型置信度的响应的局部不一致性。我们提出了MLLM的不确定性期望，并提供了激励UMPIRE设计的理论分析。大量实验表明，UMPIRE在图像、音频和视频文本基准测试（包括对抗性和分布外设置）中的错误检测和不确定性校准方面始终优于基线指标。我们还展示了UMPIRE对非文本输出任务（包括图像和音频生成）的泛化能力。

🔬 方法详解

问题定义：多模态大语言模型(MLLM)在实际应用中会产生看似合理但错误的输出，这限制了其可靠性。现有的不确定性量化方法存在局限性，例如仅适用于特定模态，需要依赖外部工具，或者计算复杂度过高，难以满足实际需求。因此，需要一种高效、通用且无需额外训练的不确定性量化方法，以提升MLLM的可靠性。

核心思路：UMPIRE的核心思想是利用MLLM自身的内部模态特征，通过计算采样响应的不一致性调整语义体积来量化不确定性。语义体积反映了模型生成响应的多样性，而不一致性调整则考虑了模型对不同响应的置信度。如果模型生成的响应在语义空间中分布广泛且彼此矛盾，则表明模型的不确定性较高。

技术框架：UMPIRE框架主要包含以下几个步骤：1) 对给定的输入，从MLLM中采样多个响应；2) 将这些响应映射到MLLM的内部模态特征空间；3) 计算这些特征向量的语义体积；4) 根据模型对每个响应的置信度，对语义体积进行不一致性调整。最终得到的不确定性得分越高，表明模型对该输入的预测越不可靠。

关键创新：UMPIRE的关键创新在于：1) 无需训练，直接利用MLLM自身的特征；2) 适用于多种模态的输入和输出；3) 通过不一致性调整，更准确地反映了模型的不确定性。与现有方法相比，UMPIRE更加高效、通用且易于部署。

关键设计：UMPIRE的关键设计包括：1) 语义体积的计算方法，例如可以使用蒙特卡洛方法估计特征向量所张成的超体积；2) 不一致性调整的策略，例如可以使用模型对每个响应的softmax概率作为权重，对语义体积进行加权平均；3) 内部模态特征的选择，需要选择能够有效表征响应语义信息的特征层。

🖼️ 关键图片

📊 实验亮点

实验结果表明，UMPIRE在图像、音频和视频文本基准测试中，错误检测和不确定性校准方面始终优于基线指标。例如，在对抗性攻击和分布外数据上，UMPIRE能够更准确地识别错误的预测。此外，UMPIRE还成功推广到图像和音频生成等非文本输出任务，证明了其通用性和有效性。

🎯 应用场景

UMPIRE可应用于各种需要可靠多模态大语言模型输出的场景，例如自动驾驶、医疗诊断、智能客服等。通过量化模型的不确定性，可以识别不可靠的预测，并将其交给人工专家或更大的模型进行处理，从而提高系统的整体性能和安全性。此外，UMPIRE还可以用于评估和比较不同MLLM的可靠性，指导模型选择和优化。

📄 摘要（原文）

Despite their capabilities, Multimodal Large Language Models (MLLMs) may produce plausible but erroneous outputs, hindering reliable deployment. Accurate uncertainty metrics could enable escalation of unreliable queries to human experts or larger models for improved performance. However, existing uncertainty metrics have practical constraints, such as being designed only for specific modalities, reliant on external tools, or computationally expensive. We introduce UMPIRE, a training-free uncertainty quantification framework for MLLMs that works efficiently across various input and output modalities without external tools, relying only on the models' own internal modality features. UMPIRE computes the incoherence-adjusted semantic volume of sampled MLLM responses for a given task instance, effectively capturing both the global semantic diversity of samples and the local incoherence of responses based on internal model confidence. We propose uncertainty desiderata for MLLMs and provide theoretical analysis motivating UMPIRE's design. Extensive experiments show that UMPIRE consistently outperforms baseline metrics in error detection and uncertainty calibration across image, audio, and video-text benchmarks, including adversarial and out-of-distribution settings. We also demonstrate UMPIRE's generalization to non-text output tasks, including image and audio generation.

Uncertainty Quantification for Multimodal Large Language Models with Incoherence-adjusted Semantic Volume

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理