SCoOP: Semantic Consistent Opinion Pooling for Uncertainty Quantification in Multiple Vision-Language Model Systems

作者: Chung-En Johnny Yu, Brian Jalaian, Nathaniel D. Bastian

分类: cs.AI, cs.MA

发布日期: 2026-03-25

备注: Accepted to ICLR 2024 Workshop on Agentic AI in the Wild: From Hallucinations to Reliable Autonomy

💡 一句话要点

提出SCoOP，通过语义一致的意见池化提升多模态视觉-语言模型系统的不确定性量化。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 视觉-语言模型 不确定性量化 意见池化 幻觉检测

📋 核心要点

现有方法难以有效量化多视觉-语言模型系统中的不确定性，导致幻觉风险增加。
SCoOP通过不确定性加权线性意见池化，显式测量系统级不确定性，实现幻觉检测和拒绝预测。
SCoOP在ScienceQA上显著提升了幻觉检测和拒绝预测的性能，且聚合开销极低。

📝 摘要（中文）

结合多个视觉-语言模型(VLMs)可以增强多模态推理和鲁棒性，但聚合异构模型的输出会放大不确定性并增加幻觉风险。我们提出了SCoOP（语义一致的意见池化），这是一个无需训练的不确定性量化(UQ)框架，用于通过不确定性加权线性意见池化来处理多VLM系统。与为单个模型设计的现有UQ方法不同，SCoOP显式地测量跨多个VLM的集体、系统级不确定性，从而能够有效地检测幻觉并对高度不确定的样本进行拒绝预测。在ScienceQA上，SCoOP在幻觉检测方面实现了0.866的AUROC，比基线（0.732-0.757）高出约10-13%。对于拒绝预测，它达到了0.907的AURAC，超过基线（0.818-0.840）7-9%。尽管有这些提升，但相对于基线，SCoOP仅引入了微秒级的聚合开销，与典型的VLM推理时间（秒级）相比，这微不足道。这些结果表明，SCoOP为不确定性感知的聚合提供了一种高效且有原则的机制，从而提高了多模态AI系统的可靠性。

🔬 方法详解

问题定义：论文旨在解决多视觉-语言模型(VLM)集成系统中不确定性量化的问题。现有方法主要针对单个模型设计，无法有效处理多模型集成带来的异构性和不确定性放大，导致系统容易产生幻觉，影响可靠性。

核心思路：论文的核心思路是利用语义一致的意见池化，通过对不同VLM的输出进行加权聚合，从而显式地测量系统级别的不确定性。权重由每个VLM输出的不确定性程度决定，不确定性高的模型权重较低，反之亦然。这样可以有效抑制不确定性高的模型的输出，降低幻觉风险。

技术框架：SCoOP框架主要包含以下几个阶段：1）多个VLM对输入数据进行推理，生成各自的输出和不确定性估计；2）计算每个VLM输出的语义一致性得分，作为不确定性度量；3）使用语义一致性得分作为权重，对不同VLM的输出进行线性池化，得到最终的系统输出；4）根据池化后的不确定性估计，进行幻觉检测或拒绝预测。

关键创新：SCoOP的关键创新在于提出了语义一致性意见池化的概念，将语义一致性作为不确定性的度量标准，并将其用于加权聚合不同VLM的输出。与现有方法相比，SCoOP能够更准确地量化系统级别的不确定性，从而更有效地检测幻觉和进行拒绝预测。此外，SCoOP是一种无需训练的方法，易于部署和应用。

关键设计：SCoOP的关键设计包括：1）语义一致性得分的计算方法，例如可以使用不同VLM输出之间的余弦相似度或交叉熵等；2）线性池化的权重计算方法，例如可以使用softmax函数将语义一致性得分转换为概率权重；3）幻觉检测和拒绝预测的阈值设置，需要根据具体应用场景进行调整。

🖼️ 关键图片

📊 实验亮点

SCoOP在ScienceQA数据集上取得了显著的性能提升。在幻觉检测任务中，SCoOP的AUROC达到了0.866，相比基线方法提升了约10-13%。在拒绝预测任务中，SCoOP的AURAC达到了0.907，相比基线方法提升了7-9%。同时，SCoOP的聚合开销极低，仅为微秒级别，不会显著增加系统的推理时间。

🎯 应用场景

SCoOP可应用于各种需要多模态信息融合的场景，例如智能问答、图像描述、视觉推理等。通过有效量化和管理不确定性，SCoOP可以提高多模态AI系统的可靠性和安全性，减少错误决策带来的风险。未来，SCoOP有望应用于自动驾驶、医疗诊断等高风险领域。

📄 摘要（原文）

Combining multiple Vision-Language Models (VLMs) can enhance multimodal reasoning and robustness, but aggregating heterogeneous models' outputs amplifies uncertainty and increases the risk of hallucinations. We propose SCoOP (Semantic-Consistent Opinion Pooling), a training-free uncertainty quantification (UQ) framework multi-VLM systems through uncertainty-weighted linear opinion pooling. Unlike prior UQ methods designed for single models, SCoOP explicitly measures collective, system-level uncertainty across multiple VLMs, enabling effective hallucination detection and abstention for highly uncertain samples. On ScienceQA, SCoOP achieves an AUROC of 0.866 for hallucination detection, outperforming baselines (0.732-0.757) by approximately 10-13%. For abstention, it attains an AURAC of 0.907, exceeding baselines (0.818-0.840) by 7-9%. Despite these gains, SCoOP introduces only microsecond-level aggregation overhead relative to the baselines, which is trivial compared to typical VLM inference time (on the order of seconds). These results demonstrate that SCoOP provides an efficient and principled mechanism for uncertainty-aware aggregation, advancing the reliability of multimodal AI systems.

SCoOP: Semantic Consistent Opinion Pooling for Uncertainty Quantification in Multiple Vision-Language Model Systems

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理