Do Generalised Classifiers really work on Human Drawn Sketches?

📄 arXiv: 2407.03893v1 📥 PDF

作者: Hmrishav Bandyopadhyay, Pinaki Nath Chowdhury, Aneeshan Sain, Subhadeep Koley, Tao Xiang, Ayan Kumar Bhunia, Yi-Zhe Song

分类: cs.CV, cs.AI

发布日期: 2024-07-04

备注: ECCV 2024


💡 一句话要点

提出一种新方法以提升人类手绘草图的分类能力

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 草图理解 CLIP模型 抽象层次 表示学习 零样本学习 少样本学习 计算机视觉

📋 核心要点

  1. 现有方法在处理人类手绘草图时,缺乏对未知类别和不同抽象层次的有效泛化能力。
  2. 论文提出通过条件化CLIP模型,结合草图特性和抽象层次的提示偏差,提升草图表示学习的泛化能力。
  3. 实验结果表明,所提方法在零样本和少样本设置中均优于现有的草图表示学习算法,显示出显著的性能提升。

📝 摘要(中文)

本文首次将大型基础模型与人类草图理解相结合,展示了这一结合带来的范式转变,特别是在草图表示学习的泛化能力上。研究提出了两方面的泛化:一是跨未知类别的泛化,二是跨抽象层次的泛化,解决了草图文献中尚未解决的挑战。通过对CLIP模型进行“条件化”,使其具备草图特性,并学习抽象层次的提示偏差,本文的方法在零样本和少样本设置中超越了流行的草图表示学习算法。

🔬 方法详解

问题定义:本文旨在解决现有草图分类方法在未知类别和不同抽象层次上的泛化不足问题。现有方法在处理人类手绘草图时,往往无法有效应对这些挑战。

核心思路:论文的核心思路是通过对CLIP模型进行条件化,使其具备草图特性,并通过学习抽象层次的提示偏差来提升泛化能力。这种设计旨在利用CLIP已有的强大泛化能力,专注于草图的特性。

技术框架:整体架构包括两个主要模块:首先是通过新颖的辅助头进行光栅到矢量的草图转换,以学习草图特定的提示;其次是学习一个抽象特定的提示偏差代码本,以便在不同抽象层次上表示草图。

关键创新:最重要的技术创新在于将CLIP模型调整为“草图感知”,并通过提示偏差的加权组合实现跨抽象层次的草图表示。这一方法与现有草图表示学习方法的本质区别在于其对抽象层次的敏感性和适应性。

关键设计:关键设计包括学习草图特定的提示偏差和构建抽象层次的代码本,损失函数的选择也经过精心设计,以确保模型在不同抽象层次上均能有效学习和泛化。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,所提方法在零样本和少样本设置中超越了多种流行的草图表示学习算法,具体性能提升幅度在不同抽象层次上均显著,验证了方法的有效性和创新性。

🎯 应用场景

该研究的潜在应用领域包括计算机视觉、图形设计和人机交互等。通过提升草图的理解和分类能力,能够在艺术创作、教育工具和智能绘图软件等方面带来实际价值。未来,该方法可能推动草图理解技术的进一步发展,促进人机协作的智能化。

📄 摘要(原文)

This paper, for the first time, marries large foundation models with human sketch understanding. We demonstrate what this brings -- a paradigm shift in terms of generalised sketch representation learning (e.g., classification). This generalisation happens on two fronts: (i) generalisation across unknown categories (i.e., open-set), and (ii) generalisation traversing abstraction levels (i.e., good and bad sketches), both being timely challenges that remain unsolved in the sketch literature. Our design is intuitive and centred around transferring the already stellar generalisation ability of CLIP to benefit generalised learning for sketches. We first "condition" the vanilla CLIP model by learning sketch-specific prompts using a novel auxiliary head of raster to vector sketch conversion. This importantly makes CLIP "sketch-aware". We then make CLIP acute to the inherently different sketch abstraction levels. This is achieved by learning a codebook of abstraction-specific prompt biases, a weighted combination of which facilitates the representation of sketches across abstraction levels -- low abstract edge-maps, medium abstract sketches in TU-Berlin, and highly abstract doodles in QuickDraw. Our framework surpasses popular sketch representation learning algorithms in both zero-shot and few-shot setups and in novel settings across different abstraction boundaries.