Improving Concept Alignment in Vision-Language Concept Bottleneck Models

📄 arXiv: 2405.01825v2 📥 PDF

作者: Nithish Muthuchamy Selvaraj, Xiaobao Guo, Adams Wai-Kin Kong, Alex Kot

分类: cs.CV

发布日期: 2024-05-03 (更新: 2024-08-24)


💡 一句话要点

提出对比半监督学习方法,提升视觉-语言概念瓶颈模型中概念对齐

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 概念瓶颈模型 视觉语言模型 概念对齐 对比学习 半监督学习

📋 核心要点

  1. 现有CBM依赖LLM生成概念,缺乏专家知识,导致概念与视觉输入对齐不佳,模型可解释性差。
  2. 提出对比半监督学习(CSS)方法,利用少量标注样本,提升VLM中概念与视觉输入的对齐程度。
  3. 实验表明,CSS方法在概念和分类准确率上均有显著提升,且仅需少量人工标注。

📝 摘要(中文)

概念瓶颈模型(CBM)在进行类别预测前,先将图像映射到人类可解释的概念。最近的方法通过提示大型语言模型(LLM)生成文本概念,并利用视觉语言模型(VLM)对这些概念进行评分,从而自动构建CBM。然而,为了提高CBM的可信度,期望使用人类专家定义的概念而非LLM生成的概念。本文深入研究了VLM对于细粒度鸟类和动物分类等领域中专家定义概念的概念评分的忠实性。研究表明,尽管CLIP等VLM实现了较高的分类性能,但它们通常难以将概念与相应的视觉输入正确关联。这种错位使得生成的模型难以解释且可靠性降低。为了解决这个问题,我们提出了一种新颖的对比半监督(CSS)学习方法,该方法利用少量标记的概念样本来激活真实的视觉概念,并提高CLIP模型中的概念对齐。在三个基准数据集上的大量实验表明,我们的方法显著提高了概念准确率(+29.95)和分类准确率(+3.84),且仅需要少量人工标注的概念标签。为了进一步提高分类性能,我们针对细粒度分类问题引入了一种类级别的干预程序,该程序识别混淆类,并在其概念空间中进行干预以减少错误。

🔬 方法详解

问题定义:现有基于视觉语言模型的概念瓶颈模型,在处理专家定义的细粒度概念时,存在概念对齐问题。即使分类性能良好,VLM也可能无法正确地将概念与对应的视觉特征关联,导致模型的可解释性和可靠性下降。现有方法依赖LLM生成概念,无法保证概念的准确性和与视觉信息的对齐。

核心思路:本文的核心思路是通过对比学习,利用少量人工标注的概念样本,引导VLM学习更准确的概念表示,从而提高概念与视觉输入的对齐程度。通过对比正负样本,VLM能够更好地理解概念的视觉特征,并将其与对应的图像区域关联起来。

技术框架:该方法主要包含两个阶段:1) 对比半监督学习阶段:利用少量标注的概念样本,通过对比学习的方式,微调CLIP模型,使其更好地对齐概念和视觉特征。2) 类级别干预阶段:针对细粒度分类问题,识别混淆类,并在其概念空间中进行干预,以减少分类错误。整体流程是先通过CSS方法提升概念对齐,再通过类级别干预提升分类性能。

关键创新:该方法的主要创新在于提出了对比半监督学习(CSS)框架,该框架能够有效地利用少量标注的概念样本,提升VLM中概念与视觉输入的对齐程度。与完全依赖LLM生成概念的方法相比,CSS方法能够更好地利用专家知识,提高模型的可解释性和可靠性。此外,类级别干预方法针对细粒度分类问题,进一步提升了分类性能。

关键设计:CSS方法使用对比损失函数,鼓励VLM将正样本(包含目标概念的图像)与对应的概念文本表示拉近,将负样本(不包含目标概念的图像)与概念文本表示推远。类级别干预方法通过分析混淆矩阵,识别混淆类,并在其概念空间中添加噪声或进行扰动,以减少分类错误。具体的损失函数和干预策略的选择取决于具体的任务和数据集。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,提出的CSS方法在三个基准数据集上显著提高了概念准确率和分类准确率。在概念准确率方面,平均提升了29.95%。在分类准确率方面,平均提升了3.84%。此外,该方法仅需要少量人工标注的概念标签,具有较高的实用价值。类级别干预方法进一步提升了细粒度分类的性能。

🎯 应用场景

该研究成果可应用于需要高可解释性和可靠性的视觉识别任务,例如医学图像诊断、生物物种识别、工业质量检测等。通过提升概念对齐,可以帮助用户更好地理解模型的决策过程,并提高模型的信任度。未来,该方法可以扩展到其他领域,例如自然语言处理和多模态学习。

📄 摘要(原文)

Concept Bottleneck Models (CBM) map images to human-interpretable concepts before making class predictions. Recent approaches automate CBM construction by prompting Large Language Models (LLMs) to generate text concepts and employing Vision Language Models (VLMs) to score these concepts for CBM training. However, it is desired to build CBMs with concepts defined by human experts rather than LLM-generated ones to make them more trustworthy. In this work, we closely examine the faithfulness of VLM concept scores for such expert-defined concepts in domains like fine-grained bird species and animal classification. Our investigations reveal that VLMs like CLIP often struggle to correctly associate a concept with the corresponding visual input, despite achieving a high classification performance. This misalignment renders the resulting models difficult to interpret and less reliable. To address this issue, we propose a novel Contrastive Semi-Supervised (CSS) learning method that leverages a few labeled concept samples to activate truthful visual concepts and improve concept alignment in the CLIP model. Extensive experiments on three benchmark datasets demonstrate that our method significantly enhances both concept (+29.95) and classification (+3.84) accuracies yet requires only a fraction of human-annotated concept labels. To further improve the classification performance, we introduce a class-level intervention procedure for fine-grained classification problems that identifies the confounding classes and intervenes in their concept space to reduce errors.