VT-FSL: Bridging Vision and Text with LLMs for Few-Shot Learning

📄 arXiv: 2509.25033v3 📥 PDF

作者: Wenhao Li, Qiangchang Wang, Xianjing Meng, Zhibin Wu, Yilong Yin

分类: cs.CV, cs.LG

发布日期: 2025-09-29 (更新: 2025-10-23)

备注: Accepted by NeurIPS 2025

🔗 代码/项目: GITHUB


💡 一句话要点

提出VT-FSL框架,利用LLM桥接视觉与文本,提升小样本学习性能。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 小样本学习 大型语言模型 跨模态学习 几何对齐 视觉文本融合

📋 核心要点

  1. 现有小样本学习方法缺乏实例层面的 grounding,导致语义幻觉,产生噪声指导和高昂的修正成本。
  2. VT-FSL框架利用LLM生成精确的类描述和合成图像,分别作为文本和视觉提示,弥补有限支持数据。
  3. 通过跨模态几何对齐,VT-FSL框架能够捕获全局和非线性关系,实现结构化和一致的多模态集成,并在多个基准测试中取得SOTA性能。

📝 摘要(中文)

本文提出了一种新颖的框架,即利用LLM桥接视觉和文本的小样本学习(VT-FSL)。该框架构建了基于大型语言模型(LLM)和支持图像的精确跨模态提示,并通过几何感知对齐无缝集成它们。VT-FSL主要由跨模态迭代提示(CIP)和跨模态几何对齐(CGA)组成。具体而言,CIP以类名和支持图像为条件,使LLM在单个结构化推理过程中迭代生成精确的类描述。这些描述不仅丰富了对新类的语义理解,还实现了语义一致图像的零样本合成。描述和合成图像分别作为互补的文本和视觉提示,提供高层次的类语义和低层次的类内多样性,以弥补有限的支持数据。此外,CGA通过最小化它们所跨越的三维平行多面体的核化体积,联合对齐融合的文本、支持和合成视觉表示。它捕获所有表示之间的全局和非线性关系,从而实现结构化和一致的多模态集成。所提出的VT-FSL方法在包括标准、跨域和细粒度小样本学习场景在内的十个不同的基准测试中建立了新的最先进性能。

🔬 方法详解

问题定义:小样本学习旨在仅从少量带标签的支持样本中识别新的概念。现有方法通过结合额外的语义信息或设计复杂的语义融合模块来增强支持特征,但由于缺乏实际实例的 grounding,容易产生与视觉证据相悖的语义幻觉,从而导致噪声指导和代价高昂的修正。

核心思路:论文的核心思路是利用大型语言模型(LLM)的强大语义理解和生成能力,生成更精确的类描述和合成图像,从而弥补小样本学习中数据不足的问题。通过将文本和视觉信息进行有效融合,可以提高模型的泛化能力和鲁棒性。

技术框架:VT-FSL框架主要包含两个模块:跨模态迭代提示(CIP)和跨模态几何对齐(CGA)。CIP模块利用LLM,以类名和支持图像为条件,迭代生成精确的类描述和合成图像。CGA模块则负责对齐融合的文本、支持和合成视觉表示,通过最小化它们所跨越的三维平行多面体的核化体积,实现结构化和一致的多模态集成。

关键创新:VT-FSL的关键创新在于利用LLM生成精确的跨模态提示,并采用几何对齐的方式进行多模态融合。与现有方法相比,VT-FSL能够更好地利用LLM的语义信息,并避免语义幻觉问题。此外,几何对齐方法能够捕获全局和非线性关系,实现更有效的多模态集成。

关键设计:CIP模块的关键设计在于迭代生成类描述和合成图像,并将其作为互补的文本和视觉提示。CGA模块的关键设计在于使用核化体积最小化作为对齐目标,并采用三维平行多面体来表示多模态特征之间的关系。具体的损失函数和网络结构细节可以在论文原文中找到。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

VT-FSL在十个不同的基准测试中取得了新的SOTA性能,包括标准、跨域和细粒度小样本学习场景。具体性能数据和对比基线可以在论文原文中找到。实验结果表明,VT-FSL能够有效利用LLM的语义信息,并实现更有效的多模态集成,从而显著提升小样本学习的性能。

🎯 应用场景

VT-FSL框架具有广泛的应用前景,例如在医疗诊断、自动驾驶、智能零售等领域,可以利用少量样本快速识别新的疾病、物体或场景。该研究有助于降低数据标注成本,提高模型的泛化能力,加速人工智能技术的落地应用。

📄 摘要(原文)

Few-shot learning (FSL) aims to recognize novel concepts from only a few labeled support samples. Recent studies enhance support features by incorporating additional semantic information or designing complex semantic fusion modules. However, they still suffer from hallucinating semantics that contradict the visual evidence due to the lack of grounding in actual instances, resulting in noisy guidance and costly corrections. To address these issues, we propose a novel framework, bridging Vision and Text with LLMs for Few-Shot Learning (VT-FSL), which constructs precise cross-modal prompts conditioned on Large Language Models (LLMs) and support images, seamlessly integrating them through a geometry-aware alignment. It mainly consists of Cross-modal Iterative Prompting (CIP) and Cross-modal Geometric Alignment (CGA). Specifically, the CIP conditions an LLM on both class names and support images to generate precise class descriptions iteratively in a single structured reasoning pass. These descriptions not only enrich the semantic understanding of novel classes but also enable the zero-shot synthesis of semantically consistent images. The descriptions and synthetic images act respectively as complementary textual and visual prompts, providing high-level class semantics and low-level intra-class diversity to compensate for limited support data. Furthermore, the CGA jointly aligns the fused textual, support, and synthetic visual representations by minimizing the kernelized volume of the 3-dimensional parallelotope they span. It captures global and nonlinear relationships among all representations, enabling structured and consistent multimodal integration. The proposed VT-FSL method establishes new state-of-the-art performance across ten diverse benchmarks, including standard, cross-domain, and fine-grained few-shot learning scenarios. Code is available at https://github.com/peacelwh/VT-FSL.