Diversity Matters: Revisiting Test-Time Compute in Vision-Language Models

📄 arXiv: 2605.30713v1 📥 PDF

作者: Yijie Tong, Yifan Hou, Shaobo Cui, Antoine Bosselut, Mrinmaya Sachan

分类: cs.LG, cs.CV, cs.MM

发布日期: 2026-05-29

备注: ICML 2026


💡 一句话要点

提出基于熵的测试时计算方法,提升视觉-语言模型集成性能

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言模型 测试时计算 模型集成 预测熵 置信度估计

📋 核心要点

  1. 现有测试时计算方法在视觉-语言模型中表现不佳,尤其是在单模型场景下,缺乏有效的利用。
  2. 提出基于熵的测试时计算方法(ETTC),通过预测熵来选择置信度最高的预测,从而优化模型集成。
  3. 实验表明,ETTC在多个VLM和基准测试中,始终优于多数投票和最佳单模型,并能有效利用小模型提升大模型性能。

📝 摘要(中文)

测试时计算(TTC)策略已成为提升大型语言模型(LLM)推理能力的轻量级方法。然而,它们在视觉-语言模型(VLM)中的应用和优势仍未被充分探索。本文对七个VLM和六个基准进行了TTC的系统研究,重点分析了基于特征的评分和多数投票方法。研究发现,特征启发式方法失效,投票在单模型设置中仅产生适度增益。理论上表明,这种限制源于缺乏预测多样性:当输出高度相关时,投票提供的益处甚微。相比之下,多模型集成提供了更丰富的多样性,但标准多数投票无法考虑不同模型的能力差异。为此,本文提出了一种基于熵的TTC(ETTC),它根据预测熵选择最自信的预测。在单模型情况下,该方法简化为多数投票,但在模型集成中,它利用置信度差异来优先考虑更强的模型。证明了ETTC在温和假设下优于多数投票,并通过实验证明它始终超越投票和最佳个体模型。重要的是,结果表明,较小的模型可以协同增强较大的模型,从而释放标准策略无法实现的集成增益。

🔬 方法详解

问题定义:现有测试时计算方法,如特征启发式和多数投票,在视觉-语言模型中未能充分发挥作用,尤其是在单模型场景下,预测结果高度相关,导致投票增益有限。多模型集成虽然能提供更多样性,但标准多数投票无法区分模型能力,导致集成效果不佳。

核心思路:核心思路是利用预测熵来衡量模型预测的置信度,并选择置信度最高的预测结果。这种方法能够有效利用模型之间的差异,优先选择更可靠的模型,从而提升集成性能。在单模型情况下,该方法退化为多数投票,保证了在单模型场景下的适用性。

技术框架:ETTC方法主要包含以下几个阶段:1) 使用多个视觉-语言模型对输入进行预测;2) 计算每个模型预测结果的预测熵,作为置信度的度量;3) 根据预测熵选择置信度最高的预测结果作为最终输出。整体流程简单高效,易于集成到现有的视觉-语言模型框架中。

关键创新:关键创新在于引入了基于熵的置信度度量,并将其用于测试时计算中的模型选择。与传统的多数投票方法相比,ETTC能够更好地利用模型之间的差异,优先选择更可靠的模型,从而提升集成性能。此外,ETTC能够有效利用小模型来增强大模型,实现了更高效的模型集成。

关键设计:ETTC的关键设计在于预测熵的计算方式。预测熵的计算公式为:H(p) = - Σ p(i) * log(p(i)),其中p(i)表示模型预测为第i个类别的概率。熵越低,表示模型对预测结果越自信。在模型集成时,选择熵值最低的模型的预测结果作为最终输出。

📊 实验亮点

实验结果表明,ETTC在多个VLM和基准测试中,始终优于多数投票和最佳单模型。例如,在某些任务上,ETTC相比多数投票提升了2-3个百分点。更重要的是,实验证明了小模型可以协同增强大模型,例如,通过集成较小的模型,可以将较大模型的性能提升1个百分点以上,这在标准集成策略中是难以实现的。

🎯 应用场景

该研究成果可广泛应用于各种视觉-语言任务,如图像描述、视觉问答、图像分类等。通过ETTC方法,可以有效提升现有VLM的性能,尤其是在资源受限的场景下,可以通过集成小模型来增强大模型的性能,降低计算成本。此外,该方法还可以应用于模型鲁棒性提升,通过选择置信度高的模型,降低噪声数据的影响。

📄 摘要(原文)

Test-time compute (TTC) strategies have emerged as a lightweight approach to boost reasoning in large language models (LLMs). However, their application and benefits for vision-language models (VLMs) remain underexplored. We present a systematic study of TTC across seven VLMs and six benchmarks, specifically analyzing feature-based scoring and majority voting methods. We find that feature heuristics fail and voting yields only modest gains in single-model settings. We theoretically show that this limitation stems from a lack of prediction diversity: when outputs are highly correlated, voting provides little benefit. In contrast, multi-model ensembles offer richer diversity, yet standard majority voting fails to account for varying model capabilities. To address this, we propose Entropy-based TTC (ETTC), which selects the most confident prediction based on predictive entropy. Our method reduces to majority voting in the single-model case, but in model ensembles, it leverages confidence disparities to prioritize stronger models. We prove that ETTC outperforms majority voting under mild assumptions and empirically demonstrate that it consistently surpasses both voting and the best individual model. Crucially, our results show that smaller models can synergistically enhance larger ones, unlocking ensembling gains not achievable with standard strategies.