PERL: Parameter Efficient Reasoning in CLIP Latent Space

📄 arXiv: 2605.18464v1 📥 PDF

作者: Simone Carnemolla, Salvatore Calcagno, Daniela Giordano, Concetto Spampinato, Matteo Pennisi

分类: cs.CV

发布日期: 2026-05-18

备注: Submitted to NeurIPS 2026


💡 一句话要点

提出PERL,通过CLIP隐空间中的参数高效推理实现视觉-语言模型的快速适应。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言模型 参数高效学习 迭代推理 CLIP 少样本学习 跨数据集迁移 零样本学习

📋 核心要点

  1. 现有参数高效的视觉-语言模型适应方法主要依赖增加可训练参数,如提示或适配器,存在参数效率瓶颈。
  2. PERL通过在CLIP隐空间中进行迭代推理,利用少量参数逐步细化语义表示,实现高效的任务适应。
  3. 实验表明,PERL在少样本学习和跨数据集迁移等任务上,以极少的参数量实现了优异的性能。

📝 摘要(中文)

对比学习训练的视觉-语言模型,如CLIP,通过在共享嵌入空间中对齐图像和文本,实现了强大的零样本迁移能力。然而,在不降低其开放词汇泛化能力的情况下,将这些模型适应于下游任务仍然具有挑战性。现有的参数高效适应方法通常通过学习提示、适配器或多模态转换来提高任务的专业化程度,其中适应能力主要通过额外的可训练参数来表达。受语言模型中最近的潜在推理方法的启发,我们研究了一个互补的视角:适应是否可以从潜在表示的迭代推理中产生,而不是仅仅通过增加参数数量?我们引入了PERL(CLIP隐空间中的参数高效推理),这是一个轻量级的适应框架,它使用一个紧凑的共享推理模块来增强一个冻结的CLIP模型,该模块在细化步骤中递归应用。在每个步骤中,PERL生成一个以当前表示为条件的潜在推理token,并将其注入到中间编码器层中,逐步细化更高层次的语义表示,同时保留CLIP的预训练多模态结构。在涵盖基础到新颖泛化、跨数据集迁移和分布外ImageNet变体的15个基准测试中,PERL在快速适应的少样本设置下,在所比较的方法中实现了最佳的参数-性能权衡,结合了强大的新类别准确性和具有竞争力的迁移性能,而只有大约6K个可训练参数,比最大的比较方法少817倍。总的来说,我们的结果表明,迭代潜在推理为判别式视觉-语言模型中的参数缩放提供了一种互补的适应机制。

🔬 方法详解

问题定义:现有视觉-语言模型(如CLIP)的参数高效适应方法,通常通过增加可训练参数(如prompt或adapter)来实现任务特定化,但这些方法的参数效率较低,难以在资源受限的场景下应用,并且可能影响模型的泛化能力。

核心思路:PERL的核心思路是利用迭代的潜在推理,在CLIP的隐空间中逐步细化图像和文本的表示,从而实现高效的任务适应。通过引入一个轻量级的共享推理模块,在CLIP的中间层注入推理token,逐步提升高层语义表示,同时保持CLIP预训练的多模态结构。

技术框架:PERL框架包含一个冻结的CLIP模型和一个可训练的共享推理模块。推理模块在CLIP的图像/文本编码器的中间层循环应用。具体流程如下:1) 输入图像/文本通过CLIP编码器得到初始表示;2) 推理模块基于当前表示生成一个潜在推理token;3) 该token被注入到CLIP编码器的中间层,更新表示;4) 重复步骤2和3若干次,逐步细化表示;5) 最终的表示用于下游任务。

关键创新:PERL的关键创新在于利用迭代的潜在推理作为一种参数高效的适应机制。与传统的增加可训练参数的方法不同,PERL通过在隐空间中进行推理,利用少量参数即可实现显著的性能提升。这种方法能够更好地保持CLIP的预训练知识,并提高模型的泛化能力。

关键设计:PERL的关键设计包括:1) 共享推理模块:使用一个小型Transformer网络作为推理模块,以减少参数量;2) 迭代推理:通过多次迭代推理,逐步细化表示,提高模型的表达能力;3) 中间层注入:将推理token注入到CLIP编码器的中间层,以更好地融合低层和高层特征;4) 损失函数:使用交叉熵损失函数进行训练,以优化模型的分类性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

PERL在15个基准测试中,以约6K的可训练参数,实现了与参数量大得多的方法相媲美的性能。例如,在少样本学习任务中,PERL在保持竞争力的迁移性能的同时,实现了强大的新类别准确性,参数量比最大的对比方法少817倍。这表明PERL在参数效率方面具有显著优势。

🎯 应用场景

PERL适用于各种需要快速适应和参数高效的视觉-语言任务,例如:零样本图像分类、少样本学习、跨数据集迁移、机器人视觉等。该方法可以部署在资源受限的设备上,例如移动设备或嵌入式系统,实现高效的视觉理解和推理。

📄 摘要(原文)

Contrastively trained vision-language models such as CLIP provide strong zero-shot transfer by aligning images and text in a shared embedding space. However, adapting these models to downstream tasks without degrading their open-vocabulary generalization remains challenging. Existing parameter-efficient adaptation methods typically improve task specialization through learned prompts, adapters, or multimodal transformations, where adaptation capacity is primarily expressed through additional trainable parameters. Inspired by recent latent reasoning methods in language models, we investigate a complementary perspective: can adaptation emerge from iterative reasoning on latent representations rather than from increasing parameter count alone? We introduce PERL (Parameter-Efficient Reasoning in CLIP Latent Space), a lightweight adaptation framework that augments a frozen CLIP model with a compact shared reasoning module applied recurrently across refinement steps. At each step, PERL generates a latent reasoning token conditioned on the current representation and injects it into an intermediate encoder layer, progressively refining higher-level semantic representations while preserving CLIP's pretrained multimodal structure. Across 15 benchmarks spanning base-to-novel generalization, cross-dataset transfer, and out-of-distribution ImageNet variants, PERL achieves the best parameter-performance trade-off among the compared methods under a fast-adaptation few-shot setting, combining strong novel-class accuracy and competitive transfer performance with only about 6K trainable parameters, up to 817x fewer than the largest compared approach. Overall, our results suggest that iterative latent reasoning provides a complementary adaptation mechanism to parameter scaling in discriminative vision-language models.