LLM-empowered Dynamic Prompt Routing for Vision-Language Models Tuning under Long-Tailed Distributions
作者: Yongju Jia, Jiarui Ma, Xiangxian Li, Baiqiao Zhang, Xianhui Cao, Juan Liu, Yulong Bian
分类: cs.CV
发布日期: 2025-08-21
备注: accepted by EMNLP 2025
💡 一句话要点
提出MDPR框架,解决长尾分布下VLM微调的偏差累积问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉-语言模型 长尾分布 动态提示路由 类别不平衡 知识库
📋 核心要点
- 现有方法忽略了VLM预训练中固有的类别不平衡问题,导致微调时偏差累积。
- MDPR框架构建多维知识库,通过动态路由对齐视觉类别、检索提示并平衡语义。
- 在长尾数据集上,MDPR取得了与SOTA方法相当的结果,且计算开销小。
📝 摘要(中文)
预训练的视觉-语言模型(VLM),如CLIP,在视觉任务中表现出令人印象深刻的能力,但它们的微调经常受到类别不平衡场景中偏差的影响。最近的研究引入大型语言模型(LLM)来增强VLM微调,补充语义信息。然而,它们常常忽略VLM预训练中固有的类别不平衡,这可能导致下游任务中的偏差累积。为了解决这个问题,本文提出了一种多维动态提示路由(MDPR)框架。MDPR构建了一个全面的类别知识库,跨越五个视觉-语义维度。在微调期间,动态路由机制对齐全局视觉类别,检索最佳提示,并通过logits融合平衡细粒度语义,从而产生稳定的预测。在长尾基准测试(包括CIFAR-LT、ImageNet-LT和Places-LT)上的大量实验表明,MDPR实现了与当前SOTA方法相当的结果。消融研究进一步证实了我们的语义库对于尾部类别的有效性,并表明我们的动态路由产生的计算开销最小,使得MDPR成为数据不平衡下VLM微调的灵活而有效的增强。
🔬 方法详解
问题定义:论文旨在解决长尾分布下,视觉-语言模型(VLM)在微调过程中出现的偏差累积问题。现有方法虽然利用大型语言模型(LLM)补充语义信息,但忽略了VLM预训练阶段本身存在的类别不平衡,导致下游任务性能受限,尤其是在尾部类别上表现不佳。
核心思路:论文的核心思路是构建一个多维的动态提示路由(MDPR)框架,该框架能够根据输入的视觉信息,动态地从知识库中选择最合适的提示(Prompt),从而缓解类别不平衡带来的偏差。通过对齐全局视觉类别,检索最佳提示,并平衡细粒度语义,最终实现更稳定的预测。
技术框架:MDPR框架主要包含以下几个模块:1) 多维知识库构建:构建一个包含五个视觉-语义维度的类别知识库,用于存储各类别的丰富语义信息。2) 动态路由机制:根据输入的视觉信息,动态地从知识库中选择最合适的提示。3) logits融合:将不同提示产生的logits进行融合,以获得最终的预测结果。整体流程是,输入图像经过VLM编码后,通过动态路由机制检索知识库中的相关提示,然后将这些提示与图像特征结合,生成最终的预测结果。
关键创新:论文的关键创新在于提出了多维动态提示路由机制,该机制能够根据输入的视觉信息,自适应地选择最合适的提示,从而有效地缓解了类别不平衡带来的偏差。与现有方法相比,MDPR更加关注VLM预训练阶段的类别不平衡问题,并针对性地提出了解决方案。
关键设计:MDPR的关键设计包括:1) 五个视觉-语义维度:具体维度信息未知,但它们共同构成了类别的完整语义表示。2) 动态路由算法:具体算法未知,但其目标是根据视觉信息选择最佳提示。3) logits融合策略:具体策略未知,但其目标是平衡不同提示的影响,从而获得更准确的预测。
🖼️ 关键图片
📊 实验亮点
实验结果表明,MDPR在CIFAR-LT、ImageNet-LT和Places-LT等长尾基准测试上取得了与当前SOTA方法相当的结果。消融实验证实了语义库对于尾部类别的有效性,并表明动态路由机制引入的计算开销很小。这些结果表明,MDPR是一种灵活且高效的VLM微调增强方法,尤其适用于数据不平衡的场景。
🎯 应用场景
该研究成果可应用于图像分类、目标检测、图像检索等多种视觉任务,尤其是在数据分布不平衡的场景下,例如医疗影像分析、罕见事件检测等。通过缓解长尾分布带来的偏差,可以提高模型的泛化能力和鲁棒性,从而在实际应用中获得更好的性能和可靠性。未来,该方法有望进一步扩展到其他模态,例如视频和文本,以解决更复杂的跨模态学习问题。
📄 摘要(原文)
Pre-trained vision-language models (VLMs), such as CLIP, have demonstrated impressive capability in visual tasks, but their fine-tuning often suffers from bias in class-imbalanced scene. Recent works have introduced large language models (LLMs) to enhance VLM fine-tuning with supplementing semantic information. However, they often overlook inherent class imbalance in VLMs' pre-training, which may lead to bias accumulation in downstream tasks. To address this problem, this paper proposes a Multi-dimensional Dynamic Prompt Routing (MDPR) framework. MDPR constructs a comprehensive knowledge base for classes, spanning five visual-semantic dimensions. During fine-tuning, the dynamic routing mechanism aligns global visual classes, retrieves optimal prompts, and balances fine-grained semantics, yielding stable predictions through logits fusion. Extensive experiments on long-tailed benchmarks, including CIFAR-LT, ImageNet-LT, and Places-LT, demonstrate that MDPR achieves comparable results with current SOTA methods. Ablation studies further confirm the effectiveness of our semantic library for tail classes, and show that our dynamic routing incurs minimal computational overhead, making MDPR a flexible and efficient enhancement for VLM fine-tuning under data imbalance.