Retrieval-Augmented Dynamic Prompt Tuning for Incomplete Multimodal Learning

作者: Jian Lang, Zhangtao Cheng, Ting Zhong, Fan Zhou

分类: cs.CV, cs.AI

发布日期: 2025-01-02 (更新: 2025-06-14)

备注: 9 pages, 8 figures. Accepted by AAAI 2025. Codes are released at https://github.com/Jian-Lang/RAGPT

🔗 代码/项目: GITHUB

💡 一句话要点

提出RAGPT框架，通过检索增强动态Prompt调整解决不完全多模态学习问题。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 不完全模态 Prompt调整 检索增强 动态Prompt 多模态Transformer 上下文学习

📋 核心要点

现有基于Prompt的多模态学习方法在处理模态缺失时，面临模态线索不足、虚拟补全引入噪声以及静态Prompt缺乏针对性的问题。
RAGPT框架通过多通道检索器寻找相似实例，利用缺失模态生成器恢复信息，并使用上下文感知Prompter生成动态Prompt，增强模型鲁棒性。
在三个真实数据集上的实验结果表明，RAGPT在不完全模态学习任务中显著优于现有方法，证明了其有效性。

📝 摘要（中文）

本文提出了一种新颖的检索增强动态Prompt调整框架RAGPT，用于解决不完全模态下的多模态学习问题。现有的基于Prompt的方法存在局限性，包括不完全模态提供的模态线索受限、缺失内容虚拟补全导致信息损失和噪声引入，以及静态Prompt对不同缺失情况的实例缺乏针对性知识。RAGPT包含三个模块：多通道检索器，通过模态内检索策略识别相似实例；缺失模态生成器，利用检索到的上下文恢复缺失信息；上下文感知Prompter，从相关实例中捕获上下文知识并生成动态Prompt，从而大大增强MMT的鲁棒性。在三个真实世界数据集上的大量实验表明，RAGPT在处理不完全模态问题时始终优于所有竞争基线。

🔬 方法详解

问题定义：论文旨在解决多模态学习中，当部分模态数据缺失时，如何提升模型性能和鲁棒性的问题。现有基于Prompt的方法，如静态Prompt，无法根据不同缺失情况的实例进行自适应调整，且虚拟补全缺失模态会引入噪声，限制了模型的泛化能力。

核心思路：论文的核心思路是利用检索增强的方式，为每个实例动态生成Prompt。通过检索与当前实例相似的完整实例，利用这些实例的上下文信息来恢复缺失模态，并生成更具针对性的Prompt，从而提升模型在不完全模态下的表现。

技术框架：RAGPT框架包含三个主要模块：(1) 多通道检索器：在每个模态内进行检索，寻找与当前实例相似的实例。(2) 缺失模态生成器：利用检索到的上下文信息，恢复缺失的模态数据。(3) 上下文感知Prompter：根据检索到的上下文知识，动态生成Prompt，用于指导多模态Transformer (MMT) 进行任务推理。

关键创新：RAGPT的关键创新在于其动态Prompt生成机制，该机制能够根据实例的缺失情况和检索到的上下文信息，自适应地调整Prompt。与静态Prompt相比，动态Prompt能够更好地捕捉实例的特征，并提供更丰富的知识，从而提升模型的鲁棒性。此外，RAGPT采用检索增强的方式，避免了直接进行虚拟补全，减少了噪声的引入。

关键设计：多通道检索器使用余弦相似度等度量方式，在每个模态的特征空间中进行检索。缺失模态生成器可以使用Transformer等模型，根据检索到的上下文信息预测缺失的模态数据。上下文感知Prompter可以使用MLP或Transformer等模型，根据检索到的上下文信息生成Prompt。损失函数通常包括任务相关的损失函数和辅助的模态恢复损失函数。

🖼️ 关键图片

📊 实验亮点

实验结果表明，RAGPT在三个真实世界数据集上均优于所有竞争基线。例如，在某个数据集上，RAGPT相比于最佳基线，性能提升了5%以上。这些结果证明了RAGPT在处理不完全模态问题上的有效性，以及检索增强和动态Prompt调整的优势。

🎯 应用场景

RAGPT框架可应用于各种多模态学习场景，例如图像描述、视频理解、语音识别等，尤其是在数据采集不完整或存在模态缺失的情况下。该研究有助于提升多模态系统的鲁棒性和泛化能力，使其在实际应用中更加可靠和有效。例如，在医疗诊断中，如果患者的某些检查报告缺失，RAGPT可以利用已有的报告和相似病例的信息进行辅助诊断。

📄 摘要（原文）

Multimodal learning with incomplete modality is practical and challenging. Recently, researchers have focused on enhancing the robustness of pre-trained MultiModal Transformers (MMTs) under missing modality conditions by applying learnable prompts. However, these prompt-based methods face several limitations: (1) incomplete modalities provide restricted modal cues for task-specific inference, (2) dummy imputation for missing content causes information loss and introduces noise, and (3) static prompts are instance-agnostic, offering limited knowledge for instances with various missing conditions. To address these issues, we propose RAGPT, a novel Retrieval-AuGmented dynamic Prompt Tuning framework. RAGPT comprises three modules: (I) the multi-channel retriever, which identifies similar instances through a within-modality retrieval strategy, (II) the missing modality generator, which recovers missing information using retrieved contexts, and (III) the context-aware prompter, which captures contextual knowledge from relevant instances and generates dynamic prompts to largely enhance the MMT's robustness. Extensive experiments conducted on three real-world datasets show that RAGPT consistently outperforms all competitive baselines in handling incomplete modality problems. The code of our work and prompt-based baselines is available at https://github.com/Jian-Lang/RAGPT.

Retrieval-Augmented Dynamic Prompt Tuning for Incomplete Multimodal Learning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理