From Points to Clouds: Learning Robust Semantic Distributions for Multi-modal Prompts
作者: Weiran Li, Yeqiang Liu, Yijie Wei, Mina Han, Xin Liu, Zhenbo Li
分类: cs.CV
发布日期: 2025-11-28
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
提出Points-to-Clouds (P2C)框架,学习鲁棒语义分布以提升多模态Prompt Learning的泛化性。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态学习 Prompt Learning 视觉语言模型 扩散模型 去噪自动编码器
📋 核心要点
- 现有MPL方法依赖于单一静态点表示,易过拟合基础类别,泛化到新类别或模糊类别时性能不佳。
- P2C框架受扩散模型启发,将prompt学习视为动态去噪任务,学习语义云而非单一的点表示。
- 实验结果表明,P2C在多个数据集上优于现有方法,并在基础到新类别的泛化性能上取得了显著提升。
📝 摘要(中文)
多模态Prompt Learning (MPL) 已成为适配大规模视觉语言模型 (VLMs) 的关键技术。然而,现有的MPL方法本质上受限于对单一、静态点表示的优化。这种模式本质上是脆弱的,导致对基础类别的过拟合,并且对新类别或模糊类别的泛化能力较差。我们挑战了这种点范式,提出鲁棒的泛化需要学习语义云(即嵌入空间上的分布)。为了实现这一点,我们引入了Points-to-Clouds (P2C),这是一个受扩散模型启发的全新框架,它将prompt学习重新定义为动态去噪任务。P2C的核心是双重去噪机制:动态Prompt去噪 (DPD) 机制使用复杂的、退火噪声扰动文本prompt,以学习更平滑的语义景观,而辅助的V-L Mapper去噪损失将mapper重新定义为去噪自动编码器。这迫使mapper从嘈杂的文本输入重建干净的视觉prompt,确保鲁棒的跨模态对齐。在11个数据集上的大量实验表明,P2C始终优于强大的基线。在基础到新类别的泛化基准测试中,我们的方法实现了79.7%的调和平均值,相对于基线提高了1.4%。
🔬 方法详解
问题定义:现有的多模态Prompt Learning (MPL) 方法通常使用单一的、静态的点表示来优化prompt,这导致模型容易过拟合已知的类别,并且在面对新的或模糊的类别时,泛化能力较差。这种方法无法捕捉到语义的丰富性和不确定性,限制了模型的鲁棒性。
核心思路:论文的核心思路是将prompt学习从优化单一的点表示转变为学习一个语义云,即嵌入空间上的一个分布。通过学习语义云,模型可以更好地捕捉语义的不确定性和多样性,从而提高模型的鲁棒性和泛化能力。这种方法借鉴了扩散模型的思想,将prompt学习视为一个动态的去噪过程。
技术框架:P2C框架包含两个主要的去噪机制:动态Prompt去噪 (DPD) 和 V-L Mapper去噪损失。DPD机制通过向文本prompt添加退火噪声来学习更平滑的语义景观。V-L Mapper去噪损失将mapper重新定义为一个去噪自动编码器,迫使mapper从嘈杂的文本输入重建干净的视觉prompt。这两个机制共同作用,确保了鲁棒的跨模态对齐。整体流程包括:1. 对文本prompt进行噪声扰动;2. 使用V-L Mapper将噪声文本prompt映射到视觉prompt;3. 使用V-L Mapper去噪损失,迫使mapper重建干净的视觉prompt。
关键创新:P2C的关键创新在于它将prompt学习重新定义为一个动态的去噪任务,并引入了双重去噪机制。与现有方法不同,P2C学习的是语义云而非单一的点表示,这使得模型能够更好地捕捉语义的不确定性和多样性。此外,P2C的V-L Mapper去噪损失迫使mapper学习鲁棒的跨模态对齐,进一步提高了模型的泛化能力。
关键设计:DPD机制使用退火噪声,噪声水平随着训练的进行逐渐降低。V-L Mapper去噪损失采用均方误差 (MSE) 作为损失函数,用于衡量重建的视觉prompt与原始视觉prompt之间的差异。V-L Mapper可以使用各种网络结构,例如多层感知机 (MLP) 或 Transformer。
🖼️ 关键图片
📊 实验亮点
P2C在11个数据集上进行了广泛的实验,结果表明P2C始终优于强大的基线方法。在基础到新类别的泛化基准测试中,P2C实现了79.7%的调和平均值,相对于基线提高了1.4%。这些结果表明,P2C能够有效地学习鲁棒的语义分布,并提高多模态prompt learning的泛化能力。
🎯 应用场景
P2C框架具有广泛的应用前景,可以应用于各种需要多模态prompt learning的场景,例如图像分类、图像检索、视觉问答等。该研究可以提升视觉语言模型在实际应用中的鲁棒性和泛化能力,尤其是在面对新类别或模糊类别时。未来,该方法可以进一步扩展到其他模态,例如音频和视频,以实现更强大的多模态学习。
📄 摘要(原文)
Multimodal Prompt Learning (MPL) has emerged as a pivotal technique for adapting large-scale Visual Language Models (VLMs). However, current MPL methods are fundamentally limited by their optimization of a single, static point representation. This paradigm is inherently brittle, leads to overfitting on base classes, and generalizes poorly to novel or ambiguous categories. We challenge this point paradigm, proposing that robust generalization requires learning a semantic cloud (i.e., a distribution over the embedding space). To achieve this, we introduce Points-to-Clouds (P2C), a novel framework inspired by diffusion models that reframes prompt learning as a dynamic denoising task. At the core of P2C is a dual denoising mechanism: a Dynamic Prompt Denoising (DPD) mechanism perturbs text prompts with sophisticated, annealed noise to learn a smoother semantic landscape, while an auxiliary V-L Mapper denoising loss re-tasks the mapper as a denoising autoencoder. This forces the mapper to reconstruct clean visual prompts from noisy text inputs, ensuring robust cross-modal alignment. Extensive experiments across 11 datasets demonstrate that P2C consistently outperforms strong baselines. On the base-to-novel generalization benchmark, our method achieves a Harmonic Mean of 79.7%, representing a relative improvement of 1.4% over the baseline. The code and models are available at https://vranlee.github.io/P2C/.