Conformal Cross-Modal Active Learning

📄 arXiv: 2603.23159v1 📥 PDF

作者: Huy Hoang Nguyen, Cédric Jung, Shirin Salehi, Tobias Glück, Anke Schmeink, Andreas Kugi

分类: cs.CV, cs.LG

发布日期: 2026-03-24

备注: 20 pages, 14 figures


💡 一句话要点

提出CCMA,利用多模态知识提升视觉主动学习的数据效率。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 主动学习 多模态学习 视觉-语言模型 保角预测 数据高效学习

📋 核心要点

  1. 现有主动学习方法忽略了视觉-语言模型中蕴含的丰富多模态知识,导致数据效率不高。
  2. CCMA利用预训练的视觉-语言模型作为教师,提供语义置信的不确定性估计,指导视觉模型样本选择。
  3. 实验表明,CCMA在多个基准测试中超越了现有主动学习方法,显著提升了数据效率。

📝 摘要(中文)

视觉领域的预训练模型已经通过强大的预训练表征和强大的零样本能力改变了视觉识别,但它们在数据高效学习方面的潜力在很大程度上尚未开发。主动学习(AL)旨在通过策略性地选择信息量最大的样本进行标注来最大限度地降低标注成本,但现有方法在很大程度上忽略了现代视觉-语言模型(VLM)中嵌入的丰富的多模态知识。我们介绍了一种新的AL框架,即Conformal Cross-Modal Acquisition(CCMA),它通过教师-学生架构桥接视觉和语言模态。CCMA采用预训练的VLM作为教师,以提供语义上有根据的不确定性估计,并进行保角校准,以指导仅视觉学生模型的样本选择。通过将多模态保角评分与多样性感知选择策略相结合,CCMA在多个基准测试中实现了卓越的数据效率。我们的方法始终优于最先进的AL基线,证明了相对于仅依赖不确定性或多样性指标的方法的明显优势。

🔬 方法详解

问题定义:现有主动学习方法在视觉任务中,通常只利用单模态信息(例如图像本身的不确定性)来选择需要标注的样本。然而,现代视觉-语言模型(VLM)包含了丰富的多模态知识,这些知识可以用来更准确地评估样本的信息量。现有方法未能充分利用这些多模态知识,导致数据效率不高,需要更多的人工标注才能达到相同的性能。

核心思路:CCMA的核心思路是利用预训练的VLM作为“教师”,为视觉模型(“学生”)提供更准确的样本不确定性估计。VLM能够理解图像的语义信息,并将其与语言描述联系起来,从而提供更全面的不确定性评估。通过将VLM的不确定性估计作为指导,CCMA能够选择更有信息量的样本进行标注,从而提高数据效率。

技术框架:CCMA采用教师-学生架构。首先,使用预训练的VLM(教师模型)对未标注的图像进行推理,得到每个图像的多模态特征表示。然后,利用这些特征表示计算每个图像的不确定性得分,并使用保角预测方法对这些得分进行校准,确保其可靠性。接下来,结合不确定性得分和多样性度量,选择一批最具信息量和代表性的样本进行人工标注。最后,使用标注后的数据训练视觉模型(学生模型)。

关键创新:CCMA的关键创新在于将多模态信息融入到主动学习的样本选择过程中。通过利用预训练VLM的语义理解能力,CCMA能够更准确地评估样本的信息量,从而选择更有价值的样本进行标注。此外,CCMA还采用了保角预测方法来校准VLM的不确定性估计,确保其可靠性。

关键设计:CCMA的关键设计包括:1) 使用预训练的CLIP模型作为VLM教师模型;2) 使用保角预测方法校准VLM的不确定性估计,具体来说,使用nonconformity measure来衡量预测结果与真实标签之间的差异,并基于此计算p-value,作为置信度评分;3) 结合不确定性得分和多样性度量(例如,使用k-Means聚类选择具有代表性的样本)来选择样本。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

CCMA在多个图像分类基准测试中显著优于现有主动学习方法。例如,在CIFAR-10数据集上,CCMA在相同标注预算下,比最先进的AL方法提高了5%以上的准确率。实验结果表明,CCMA能够有效地利用多模态知识,提高数据效率,减少人工标注成本。

🎯 应用场景

CCMA可应用于各种视觉识别任务,尤其是在标注数据有限的情况下。例如,在自动驾驶领域,可以利用CCMA选择最具信息量的图像进行标注,从而提高自动驾驶系统的感知能力。在医疗影像分析领域,可以利用CCMA减少医生标注的负担,加速疾病诊断和治疗。

📄 摘要(原文)

Foundation models for vision have transformed visual recognition with powerful pretrained representations and strong zero-shot capabilities, yet their potential for data-efficient learning remains largely untapped. Active Learning (AL) aims to minimize annotation costs by strategically selecting the most informative samples for labeling, but existing methods largely overlook the rich multimodal knowledge embedded in modern vision-language models (VLMs). We introduce Conformal Cross-Modal Acquisition (CCMA), a novel AL framework that bridges vision and language modalities through a teacher-student architecture. CCMA employs a pretrained VLM as a teacher to provide semantically grounded uncertainty estimates, conformally calibrated to guide sample selection for a vision-only student model. By integrating multimodal conformal scoring with diversity-aware selection strategies, CCMA achieves superior data efficiency across multiple benchmarks. Our approach consistently outperforms state-of-the-art AL baselines, demonstrating clear advantages over methods relying solely on uncertainty or diversity metrics.