SIEVES: Selective Prediction Generalizes through Visual Evidence Scoring
作者: Hector G. Rodriguez, Marcus Rohrbach
分类: cs.CV, cs.AI
发布日期: 2026-04-28
💡 一句话要点
提出SIEVES,通过视觉证据评分实现选择性预测的泛化能力提升。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 选择性预测 视觉问答 分布外泛化 视觉证据 多模态学习
📋 核心要点
- 现有视觉问答模型在分布外场景泛化性差,难以满足实际应用中低错误率的要求。
- SIEVES通过视觉证据评分,显式学习评估推理器提供的定位质量,从而提升选择性预测的性能。
- 实验表明,SIEVES在多个OOD数据集上显著提升覆盖率,且能迁移到多种推理器模型。
📝 摘要(中文)
多模态大型语言模型(MLLM)在视觉语言任务上表现越来越强。即使传统的视觉问答基准测试接近饱和,可靠的部署也需要在真实的分布外(OOD)场景中满足低误差容限。精确地说,选择性预测旨在提高覆盖率,即系统回答的输入比例,同时遵守用户定义的风险水平。这通常通过为每个答案分配一个置信度分数,并拒绝低于某个阈值的答案来实现。为了实现可靠的泛化,我们要求推理模型在回答时产生局部视觉证据,并设计一个选择器,显式地学习估计推理器提供的定位质量。我们表明,与非 grounding 基线相比,SIEVES(通过视觉证据评分进行选择性预测)在具有挑战性的 OOD 基准测试(V* Bench、HR-Bench-8k、MME-RealWorld-Lite、VizWiz 和 AdVQA)上的覆盖率提高了三倍。除了更好地泛化到 OOD 任务之外,SIEVES 选择器的设计还能够转移到专有推理器,而无需访问其权重或 logits,例如 o3 和 Gemini-3-Pro,从而提供超出仅由准确性带来的覆盖率提升。我们强调,SIEVES 在所有五个测试的 OOD 数据集和推理器模型(Pixel-Reasoner、o3 和 Gemini-3-Pro)上都进行了泛化,而无需基准测试或推理器特定的训练或适应。
🔬 方法详解
问题定义:论文旨在解决多模态大型语言模型在视觉问答任务中,尤其是在分布外(OOD)场景下的泛化性问题。现有方法难以在保证高准确率的同时,提供足够高的覆盖率,即模型能够回答的输入比例。现有的选择性预测方法通常依赖于模型自身的置信度评分,但这种评分往往不能很好地反映模型在OOD数据上的表现,导致泛化能力不足。
核心思路:论文的核心思路是利用视觉证据的质量来指导选择性预测。具体来说,模型在回答问题时,需要同时提供相关的视觉证据(例如,图像中的特定区域)。然后,设计一个选择器来评估这些视觉证据的质量,并基于此决定是否采纳模型的答案。这样做的目的是让模型能够更加关注那些它有充分视觉依据的答案,从而提高在OOD数据上的泛化能力。
技术框架:SIEVES 的整体框架包含以下几个主要模块:1) 推理器(Reasoner):负责根据视觉输入和问题生成答案,并提供相应的视觉证据。2) 选择器(Selector):负责评估推理器提供的视觉证据的质量,并输出一个置信度分数。3) 选择策略(Selection Strategy):根据选择器输出的置信度分数,决定是否采纳推理器的答案。如果置信度分数高于某个阈值,则采纳答案;否则,拒绝回答。
关键创新:SIEVES 的最重要创新点在于它显式地利用视觉证据的质量来指导选择性预测。与传统的基于模型自身置信度评分的方法相比,SIEVES 能够更好地反映模型在OOD数据上的表现,从而提高泛化能力。此外,SIEVES 的选择器可以独立于推理器进行训练,这使得它可以很容易地迁移到不同的推理器模型上,而无需重新训练整个系统。
关键设计:SIEVES 的关键设计包括:1) 视觉证据的表示方式:论文使用 bounding box 来表示视觉证据,并利用 IoU (Intersection over Union) 等指标来评估视觉证据的质量。2) 选择器的网络结构:论文使用一个简单的神经网络来学习视觉证据质量与答案正确性之间的关系。3) 损失函数:论文使用二元交叉熵损失函数来训练选择器,目标是最大化选择器预测的准确率。
🖼️ 关键图片
📊 实验亮点
SIEVES 在五个具有挑战性的 OOD 基准测试(V* Bench、HR-Bench-8k、MME-RealWorld-Lite、VizWiz 和 AdVQA)上进行了评估,结果表明,与非 grounding 基线相比,SIEVES 的覆盖率提高了三倍。更重要的是,SIEVES 能够迁移到专有推理器(如 o3 和 Gemini-3-Pro),而无需访问其权重或 logits,从而提供超出仅由准确性带来的覆盖率提升。SIEVES 在所有五个测试的 OOD 数据集和推理器模型上都进行了泛化,而无需基准测试或推理器特定的训练或适应。
🎯 应用场景
SIEVES 可应用于各种需要高可靠性和泛化能力的视觉问答场景,例如自动驾驶、医疗诊断、智能客服等。在这些场景中,模型需要在复杂的、分布不确定的环境中做出准确的判断,而SIEVES 可以帮助模型提高在这些场景下的可靠性,降低错误率,从而提升用户体验和安全性。此外,SIEVES 的可迁移性使得它可以很容易地应用于不同的视觉问答系统,具有广泛的应用前景。
📄 摘要(原文)
Multimodal large language models (MLLMs) achieve ever-stronger performance on visual-language tasks. Even as traditional visual question answering benchmarks approach saturation, reliable deployment requires satisfying low error tolerances in real-world out-of-distribution (OOD) scenarios. Precisely, selective prediction aims to improve coverage, i.e. the share of inputs the system answers, while adhering to a user-defined risk level. This is typically achieved by assigning a confidence score to each answer and abstaining on those that fall below a certain threshold. To enable reliable generalization, we require reasoner models to produce localized visual evidence while answering, and design a selector that explicitly learns to estimate the quality of the localization provided by the reasoner. We show that SIEVES (Selective Prediction through Visual Evidence Scoring) improves coverage by up to three times on challenging OOD benchmarks (V* Bench, HR-Bench-8k, MME-RealWorld-Lite, VizWiz, and AdVQA), compared to non-grounding baselines. Beyond better generalization to OOD tasks, the design of the SIEVES selector enables transfer to proprietary reasoners without access to their weights or logits, such as o3 and Gemini-3-Pro, providing coverage boosts beyond those attributable to accuracy alone. We highlight that SIEVES generalizes across all five tested OOD datasets and reasoner models (Pixel-Reasoner, o3, and Gemini-3-Pro), without benchmark- or reasoner-specific training or adaptation.