FESTA: Functionally Equivalent Sampling for Trust Assessment of Multimodal LLMs

📄 arXiv: 2509.16648v3 📥 PDF

作者: Debarpan Bhattacharya, Apoorva Kulkarni, Sriram Ganapathy

分类: cs.AI, cs.CL, cs.LG

发布日期: 2025-09-20 (更新: 2025-11-02)

备注: Accepted in the Findings of EMNLP, 2025

期刊: EMNLP 2025


💡 一句话要点

提出FESTA,通过功能等效采样评估多模态LLM的置信度

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 置信度评估 不确定性量化 功能等效采样 大型语言模型

📋 核心要点

  1. 多模态大语言模型的可信度评估面临挑战,现有方法难以有效应对多模态输入的多样性。
  2. FESTA通过生成功能等效和互补的输入样本,探测模型在不同输入下的预测一致性和敏感性。
  3. 实验表明,FESTA在视觉和音频推理任务上,显著提升了选择性预测的性能,AUROC指标提升明显。

📝 摘要(中文)

由于多模态输入范式的多样性,准确评估多模态大型语言模型(MLLM)生成预测的可信度具有挑战性,这对于选择性预测和提高用户信心至关重要。我们提出了一种用于MLLM可信度评估的功能等效采样技术(FESTA),该技术基于等效和互补的输入采样生成不确定性度量。所提出的任务保持采样方法通过扩展输入空间来探测模型的一致性(通过等效样本)和敏感性(通过互补样本),从而量化不确定性。FESTA仅使用模型的输入-输出访问(黑盒),不需要ground truth(无监督)。在各种现成的多模态LLM上,针对视觉和音频推理任务进行了实验。结果表明,基于接收者操作特征曲线下面积(AUROC)指标,在检测错误预测方面,所提出的FESTA不确定性估计在选择性预测性能方面取得了显著的改进(视觉LLM相对改进33.3%,音频LLM相对改进29.6%)。代码已开源。

🔬 方法详解

问题定义:论文旨在解决多模态大型语言模型(MLLM)的置信度评估问题。现有的置信度评估方法难以有效处理多模态输入的多样性,导致模型在不同模态输入下的预测结果可能不一致,从而影响用户对模型的信任。此外,现有方法通常需要ground truth进行监督学习,限制了其在实际应用中的适用性。

核心思路:论文的核心思路是通过生成功能等效和互补的输入样本,来探测模型在不同输入下的预测一致性和敏感性。功能等效样本旨在验证模型在相似输入下的预测是否一致,而互补样本旨在考察模型对输入微小变化的敏感程度。通过分析模型在这些样本上的预测结果,可以量化模型的不确定性,从而评估其置信度。

技术框架:FESTA的整体框架包括以下几个主要步骤:1) 输入采样:根据任务类型,生成功能等效和互补的输入样本。2) 模型预测:将生成的样本输入到MLLM中,获取模型的预测结果。3) 不确定性估计:基于模型在不同样本上的预测结果,计算不确定性度量。4) 置信度评估:根据不确定性度量,评估模型的置信度。整个过程是黑盒的,只需要访问模型的输入输出,不需要ground truth。

关键创新:FESTA的关键创新在于提出了功能等效采样的概念,并将其应用于多模态LLM的置信度评估。与传统的置信度评估方法相比,FESTA不需要ground truth,并且能够有效处理多模态输入的多样性。此外,FESTA通过探测模型在不同输入下的预测一致性和敏感性,能够更全面地评估模型的置信度。

关键设计:FESTA的关键设计包括:1) 功能等效样本的生成方法:根据不同的任务类型,设计不同的生成方法,例如,对于图像分类任务,可以通过对图像进行轻微的旋转、缩放或裁剪来生成功能等效样本。2) 互补样本的生成方法:可以通过对输入添加噪声或进行微小的扰动来生成互补样本。3) 不确定性度量的计算方法:可以基于模型在不同样本上的预测结果的方差或熵来计算不确定性度量。具体的参数设置和网络结构取决于所使用的MLLM和任务类型。

📊 实验亮点

实验结果表明,FESTA在视觉和音频推理任务上均取得了显著的性能提升。在视觉LLM上,FESTA在选择性预测性能方面取得了33.3%的相对改进,在音频LLM上取得了29.6%的相对改进。这些结果表明,FESTA能够有效评估多模态LLM的置信度,并提高其在实际应用中的性能。

🎯 应用场景

FESTA可应用于各种需要高可信度的多模态LLM应用场景,例如自动驾驶、医疗诊断和金融风控等。通过评估模型的置信度,可以实现选择性预测,避免模型在不确定情况下做出错误的决策,从而提高系统的安全性和可靠性。此外,FESTA还可以用于模型的调试和优化,帮助开发者发现模型存在的问题并进行改进。

📄 摘要(原文)

The accurate trust assessment of multimodal large language models (MLLMs) generated predictions, which can enable selective prediction and improve user confidence, is challenging due to the diverse multi-modal input paradigms. We propose Functionally Equivalent Sampling for Trust Assessment (FESTA), a multimodal input sampling technique for MLLMs, that generates an uncertainty measure based on the equivalent and complementary input samplings. The proposed task-preserving sampling approach for uncertainty quantification expands the input space to probe the consistency (through equivalent samples) and sensitivity (through complementary samples) of the model. FESTA uses only input-output access of the model (black-box), and does not require ground truth (unsupervised). The experiments are conducted with various off-the-shelf multi-modal LLMs, on both visual and audio reasoning tasks. The proposed FESTA uncertainty estimate achieves significant improvement (33.3% relative improvement for vision-LLMs and 29.6% relative improvement for audio-LLMs) in selective prediction performance, based on area-under-receiver-operating-characteristic curve (AUROC) metric in detecting mispredictions. The code implementation is open-sourced.