Personalize Your Large Vision-language Models With In-context Prompt Tuning

📄 arXiv: 2605.31513v1 📥 PDF

作者: Yanshu Li, Jiaqian Li, Kuai Yu, Xi Xiao, Dongfang Liu, Tianyang Wang, Ruixiang Tang

分类: cs.CV

发布日期: 2026-05-29

备注: 27 pages, 10 figures, 5 tables


💡 一句话要点

提出ICPT,通过上下文提示调优实现大视觉语言模型的个性化定制

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉语言模型 个性化定制 上下文学习 提示调优 几何正则化

📋 核心要点

  1. 现有LVLM个性化方法依赖推理时训练,效率低,且在复杂场景下难以保持准确性。
  2. ICPT通过轻量级投影模块提取视觉语义,并将其转换为连续提示,实现高效个性化。
  3. 引入几何正则化,解耦身份与环境状态,分离概念,显著提升个性化准确性。

📝 摘要(中文)

大型视觉语言模型(LVLMs)展现了强大的通用多模态能力,并越来越多地部署在下游系统中。这种趋势激发了人们对LVLM个性化的日益增长的兴趣,其旨在使模型能够快速有效地学习分布外的多模态概念,以满足用户特定的需求。然而,许多现有方法依赖于推理时训练,这降低了效率。它们也难以在复杂的多图像、多概念设置中保持准确性。这些限制阻碍了基于LVLM的系统的更广泛部署。因此,本文提出了上下文提示调优(ICPT)。具体来说,ICPT采用了一个轻量级的投影模块,该模块能够在复杂场景中运行,以从多个参考图像中提取细粒度的视觉语义,并将这些特征与身份标签映射无缝地转换为连续提示。为了最大限度地提高计算效率,该模块根据每个概念的内在视觉复杂性自适应地确定提示长度。至关重要的是,为了克服现实应用中普遍存在的环境偏差和跨概念干扰,我们引入了两种新的几何正则化。这些约束通过将关键身份与瞬态环境状态解耦并分离概念以避免语义混淆来细化提示表示。大量的实验表明,ICPT在各种任务和LVLM骨干网络上实现了最先进的个性化准确性。

🔬 方法详解

问题定义:现有的大型视觉语言模型个性化方法,通常需要在推理时进行训练,导致效率低下。此外,在处理包含多个图像和多个概念的复杂场景时,这些方法的准确性会显著下降。因此,如何高效且准确地对LVLM进行个性化定制,以适应用户特定的需求,是一个亟待解决的问题。

核心思路:ICPT的核心思路是利用上下文提示学习(In-context Learning)的思想,通过将参考图像的视觉特征和身份标签映射转换为连续的提示(Prompt),引导LVLM学习新的概念。通过这种方式,模型可以在不进行额外训练的情况下,快速适应新的任务和数据分布。同时,为了提高效率,ICPT自适应地调整提示的长度,避免不必要的计算开销。

技术框架:ICPT主要包含以下几个模块:1) 视觉特征提取模块:负责从参考图像中提取细粒度的视觉语义特征。2) 提示生成模块:将提取的视觉特征和身份标签映射转换为连续的提示。3) 提示调优模块:利用几何正则化方法,优化提示的表示,减少环境偏差和概念间的干扰。整个流程是,给定一组参考图像和对应的身份标签,首先通过视觉特征提取模块提取图像特征,然后通过提示生成模块生成初始提示,最后通过提示调优模块优化提示,并将优化后的提示输入到LVLM中,以实现个性化定制。

关键创新:ICPT的关键创新在于以下几个方面:1) 轻量级投影模块:能够高效地从多个参考图像中提取视觉语义特征。2) 自适应提示长度调整:根据概念的视觉复杂性,动态调整提示的长度,提高计算效率。3) 几何正则化:通过解耦身份与环境状态,分离概念,有效减少环境偏差和概念间的干扰。

关键设计:ICPT的关键设计包括:1) 投影模块的网络结构:具体网络结构未知,但强调了轻量化设计。2) 自适应提示长度的计算方法:具体计算方法未知,但目标是根据视觉复杂性调整。3) 几何正则化的具体形式:包括两种正则化方法,用于解耦身份与环境状态,以及分离概念,具体公式未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,ICPT在各种任务和LVLM骨干网络上都取得了最先进的个性化准确性。具体性能数据和对比基线未知,但论文强调ICPT在个性化准确性方面超越了现有方法,证明了几何正则化和自适应提示长度调整的有效性。

🎯 应用场景

ICPT具有广泛的应用前景,例如:个性化教育(根据学生特点定制学习内容)、智能客服(根据用户身份提供个性化服务)、虚拟形象定制(根据用户提供的图像生成个性化虚拟形象)、以及安全监控(根据特定人物进行识别和跟踪)。该研究的实际价值在于提高了LVLM在实际应用中的灵活性和效率,未来有望推动LVLM在更多领域的应用。

📄 摘要(原文)

Large vision-language models (LVLMs) have demonstrated strong general multimodal capability and are increasingly deployed in downstream systems. This trend has driven growing interest in LVLM personalization, which aims to enable models to quickly and effectively learn out-of-distribution multimodal concepts to meet user-specific needs. However, many existing methods rely on inference-time training, which reduces efficiency. They also struggle to maintain accuracy in complex multi-image, multi-concept settings. These limitations restrict the broader deployment of LVLM-based systems. Therefore, this paper proposes in-context prompt tuning (ICPT). Specifically, ICPT employs a lightweight projection module capable of operating in complex scenarios to extract fine-grained visual semantics from multiple reference images, seamlessly transforming these features alongside identity-label mappings into continuous prompts. To maximize computational efficiency, this module adaptively determines the prompt length based on the intrinsic visual complexity of each concept. Crucially, to overcome the environmental biases and cross-concept interference prevalent in real-world applications, we introduce two novel geometric regularizations. These constraints refine prompt representations by decoupling key identities from transient environmental states and separating concepts to avoid semantic confusion. Extensive experiments show that ICPT achieves state-of-the-art personalization accuracy across diverse tasks and LVLM backbones.