HARMONY: Hidden Activation Representations and Model Output-Aware Uncertainty Estimation for Vision-Language Models

作者: Erum Mushtaq, Zalan Fabian, Yavuz Faruk Bakman, Anil Ramakrishna, Mahdi Soltanolkotabi, Salman Avestimehr

分类: cs.CV

发布日期: 2025-10-25 (更新: 2025-11-28)

💡 一句话要点

提出HARMONY，利用隐层激活和模型输出来提升视觉-语言模型的不确定性估计。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言模型 不确定性估计 隐层表示 视觉问答 多模态学习

📋 核心要点

现有不确定性估计方法难以捕捉token间复杂关系，易受语言先验影响，且忽略了视觉理解对不确定性的影响。
HARMONY框架整合了生成文本、模型输出概率和隐层表示，以更全面地评估视觉-语言模型的不确定性。
实验结果表明，HARMONY在多个VQA基准测试和VLM模型上，显著提升了不确定性估计的性能。

📝 摘要（中文）

不确定性估计(UE)在量化模型输出的可靠性以及通过选择性预测减少不安全生成方面起着核心作用。目前大多数基于概率的UE方法依赖于预定义的函数，使用诸如长度归一化等启发式方法将token概率聚合为单个UE分数。然而，这些方法通常无法捕捉到生成token之间复杂的关系，并且难以识别受语言先验影响的偏差概率。另一研究方向使用模型的隐层表示，并训练简单的MLP架构来预测不确定性。然而，这些函数通常会丢失复杂的token间依赖关系。虽然先前的工作表明隐层表示编码了多模态对齐信号，但我们的工作表明，这些信号的处理方式对UE性能有显著影响。为了有效地利用这些信号来识别token间依赖关系以及视觉-文本对齐，我们提出了HARMONY（隐层激活表示和模型输出感知的不确定性估计），这是一个新颖的UE框架，它通过适当的输入映射设计和合适的架构选择，在token级别整合了生成的token（'text'）、模型在输出端的不确定性得分（'MaxProb'）以及其对图像视觉理解和生成token的内部置信度（由'隐层表示'捕获）。我们在两个开放式VQA基准测试（A-OKVQA和VizWiz）以及四个最先进的VLM（LLaVA-7B、LLaVA-13B、InstructBLIP和Qwen-VL）上的实验表明，HARMONY始终与现有方法相匹配或超越，在AUROC中实现了高达5％的改进，在PRR中实现了9％的改进。

🔬 方法详解

问题定义：现有视觉-语言模型的不确定性估计方法存在局限性。基于概率的方法无法有效捕捉token间的依赖关系和语言先验带来的偏差。基于隐层表示的方法则容易丢失token间的复杂交互信息。这些方法未能充分利用模型内部的视觉理解信号来提升不确定性估计的准确性。

核心思路：HARMONY的核心思路是将模型生成的文本、模型输出的概率以及模型内部的隐层表示进行整合，从而更全面地评估模型的不确定性。通过结合文本信息、输出概率和隐层表示，HARMONY能够更好地捕捉token间的依赖关系、视觉-文本对齐信息，并减轻语言先验带来的影响。

技术框架：HARMONY框架包含以下主要模块：1) 输入映射模块：将生成的文本、模型输出概率（MaxProb）和隐层表示映射到统一的输入空间。2) 不确定性预测模块：利用映射后的输入，预测每个token的不确定性得分。该模块可以采用不同的架构，例如MLP或Transformer。3) 聚合模块：将每个token的不确定性得分聚合为整个序列的不确定性得分。

关键创新：HARMONY的关键创新在于其综合利用了模型输出和隐层表示中的信息。与仅依赖于输出概率或隐层表示的方法相比，HARMONY能够更全面地捕捉模型的不确定性。此外，HARMONY通过适当的输入映射设计和架构选择，有效地利用了隐层表示中的视觉-文本对齐信息和token间依赖关系。

关键设计：HARMONY的具体实现细节可能包括：1) 输入映射方式：如何将文本、MaxProb和隐层表示映射到统一的输入空间。例如，可以使用embedding层将文本转换为向量表示，并使用线性层将MaxProb和隐层表示转换为相同维度的向量。2) 不确定性预测模块的架构：可以选择MLP、Transformer或其他适合的架构。3) 损失函数：可以使用二元交叉熵损失函数来训练不确定性预测模块。4) 超参数设置：例如学习率、batch size等。

🖼️ 关键图片

📊 实验亮点

实验结果表明，HARMONY在A-OKVQA和VizWiz两个VQA基准测试上，以及LLaVA-7B、LLaVA-13B、InstructBLIP和Qwen-VL四个VLM模型上，均取得了显著的性能提升。具体而言，HARMONY在AUROC指标上提升了高达5%，在PRR指标上提升了高达9%，表明其能够更准确地估计模型的不确定性。

🎯 应用场景

HARMONY可应用于各种视觉-语言任务，例如视觉问答、图像描述等。通过提供可靠的不确定性估计，HARMONY可以帮助模型进行选择性预测，避免生成不安全或错误的答案。这在安全攸关的应用场景中尤为重要，例如自动驾驶、医疗诊断等。此外，HARMONY还可以用于模型调试和改进，帮助研究人员更好地理解模型的行为。

📄 摘要（原文）

Uncertainty Estimation (UE) plays a central role in quantifying the reliability of model outputs and reducing unsafe generations via selective prediction. In this regard, most existing probability-based UE approaches rely on predefined functions, aggregating token probabilities into a single UE score using heuristics such as length-normalization. However, these methods often fail to capture the complex relationships between generated tokens and struggle to identify biased probabilities often influenced by \textbf{language priors}. Another line of research uses hidden representations of the model and trains simple MLP architectures to predict uncertainty. However, such functions often lose the intricate \textbf{ inter-token dependencies}. While prior works show that hidden representations encode multimodal alignment signals, our work demonstrates that how these signals are processed has a significant impact on the UE performance. To effectively leverage these signals to identify inter-token dependencies, and vision-text alignment, we propose \textbf{HARMONY} (Hidden Activation Representations and Model Output-Aware Uncertainty Estimation for Vision-Language Models), a novel UE framework that integrates generated tokens ('text'), model's uncertainty score at the output ('MaxProb'), and its internal belief on the visual understanding of the image and the generated token (captured by 'hidden representations') at token level via appropriate input mapping design and suitable architecture choice. Our experimental experiments across two open-ended VQA benchmarks (A-OKVQA, and VizWiz) and four state-of-the-art VLMs (LLaVA-7B, LLaVA-13B, InstructBLIP, and Qwen-VL) show that HARMONY consistently matches or surpasses existing approaches, achieving up to 5\% improvement in AUROC and 9\% in PRR.

HARMONY: Hidden Activation Representations and Model Output-Aware Uncertainty Estimation for Vision-Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理