Quantifying Memorization and Parametric Response Rates in Retrieval-Augmented Vision-Language Models
作者: Peter Carragher, Abhinand Jha, R Raghav, Kathleen M. Carley
分类: cs.LG, cs.AI
发布日期: 2025-02-19 (更新: 2025-06-15)
💡 一句话要点
量化检索增强视觉-语言模型中的记忆与参数响应率,揭示模态差异。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉-语言模型 检索增强 记忆 参数响应率 多模态学习 WebQA 问答系统
📋 核心要点
- 现有评估LLM在QA中对记忆与检索依赖程度的指标不足,无法有效衡量模型泛化能力。
- 通过对比微调模型和检索增强VLM在WebQA上的表现,分析微调对数据记忆的影响,并提出量化记忆的代理指标。
- 实验表明,微调模型更依赖记忆,在WebQA测试集上准确率更高(72% vs 52%),图像问题参数响应率比文本问题高15-25%。
📝 摘要(中文)
大型语言模型(LLMs)在问答(QA)方面表现出卓越的能力,但评估它们对记忆与检索的依赖程度的指标仍不完善。此外,虽然微调模型在封闭领域任务中处于领先地位,但像GPT-4o这样的通用模型表现出强大的零样本性能。这就提出了关于记忆、泛化和检索之间权衡的问题。在这项工作中,我们分析了多模态检索增强VLM与基线VLM相比,记忆训练数据的程度。使用WebQA基准,我们对比了微调模型与基线VLM在多跳检索和问答方面的表现,考察了微调对数据记忆的影响。为了量化端到端检索和QA系统中的记忆,我们通过研究QA成功但检索失败的实例,提出了几个代理指标。与现有工作一致,我们发现微调模型比检索增强VLM更依赖记忆,因此获得了更高的准确率(在WebQA测试集上分别为72%和52%)。最后,我们首次对文本和视觉模态之间的参数效应进行了实证比较。在这里,我们发现基于图像的问题的参数响应率始终比WebQA数据集中基于文本的问题高15-25%。因此,我们的测量对未来的工作提出了挑战,既要考虑不同模态之间模型记忆的差异,更要普遍地协调联合检索-QA任务中的记忆和泛化。
🔬 方法详解
问题定义:论文旨在解决如何量化检索增强视觉-语言模型(VLM)中记忆与参数响应率的问题。现有方法难以区分模型在问答任务中对记忆的依赖程度和对检索信息的利用程度,尤其是在多模态场景下,不同模态的记忆效应差异尚不明确。
核心思路:论文的核心思路是通过对比微调模型和检索增强VLM在WebQA基准上的表现,分析微调对数据记忆的影响。同时,提出代理指标来量化端到端检索和QA系统中的记忆程度,并首次实证比较文本和视觉模态之间的参数效应。
技术框架:论文采用的整体框架包括以下几个主要阶段:1) 数据准备:使用WebQA基准数据集,包含多跳问答和图像相关问题。2) 模型构建:构建基线VLM、微调VLM和检索增强VLM。3) 实验评估:对比不同模型在WebQA上的问答性能,并分析检索失败但QA成功的实例。4) 指标量化:提出代理指标量化模型记忆程度,并比较文本和视觉模态的参数响应率。
关键创新:论文的主要创新点在于:1) 提出了量化端到端检索和QA系统中记忆程度的代理指标。2) 首次对文本和视觉模态之间的参数效应进行了实证比较,发现图像问题的参数响应率显著高于文本问题。3) 揭示了微调模型更依赖记忆,而检索增强VLM更依赖检索,并量化了这种差异。
关键设计:论文的关键设计包括:1) 使用WebQA数据集进行多跳检索和问答任务评估。2) 设计代理指标,通过分析检索失败但QA成功的实例来量化记忆程度。3) 比较微调模型和检索增强VLM的性能差异,量化微调对记忆的影响。4) 通过比较文本和图像问题的参数响应率,分析不同模态的记忆效应差异。
🖼️ 关键图片
📊 实验亮点
实验结果表明,微调模型在WebQA测试集上的准确率为72%,而检索增强VLM为52%,证实微调模型更依赖记忆。更重要的是,图像问题的参数响应率比文本问题高15-25%,揭示了视觉模态在记忆方面具有更强的参数效应。这些数据为未来研究提供了重要的参考。
🎯 应用场景
该研究成果可应用于提升视觉-语言模型的可靠性和可解释性,例如在医疗诊断、自动驾驶等安全攸关领域,帮助模型更好地利用检索信息,减少对记忆的过度依赖,从而提高决策的准确性和鲁棒性。此外,该研究也有助于指导模型训练,平衡记忆与泛化能力。
📄 摘要(原文)
Large Language Models (LLMs) demonstrate remarkable capabilities in question answering (QA), but metrics for assessing their reliance on memorization versus retrieval remain underdeveloped. Moreover, while finetuned models are state-of-the-art on closed-domain tasks, general-purpose models like GPT-4o exhibit strong zero-shot performance. This raises questions about the trade-offs between memorization, generalization, and retrieval. In this work, we analyze the extent to which multimodal retrieval-augmented VLMs memorize training data compared to baseline VLMs. Using the WebQA benchmark, we contrast finetuned models with baseline VLMs on multihop retrieval and question answering, examining the impact of finetuning on data memorization. To quantify memorization in end-to-end retrieval and QA systems, we propose several proxy metrics by investigating instances where QA succeeds despite retrieval failing. In line with existing work, we find that finetuned models rely more heavily on memorization than retrieval-augmented VLMs, and achieve higher accuracy as a result (72% vs 52% on WebQA test set). Finally, we present the first empirical comparison of the parametric effect between text and visual modalities. Here, we find that image-based questions have parametric response rates that are consistently 15-25% higher than for text-based questions in the WebQA dataset. As such, our measures pose a challenge for future work, both to account for differences in model memorization across different modalities and more generally to reconcile memorization and generalization in joint Retrieval-QA tasks.