Analyzing Finetuning Representation Shift for Multimodal LLMs Steering
作者: Pegah Khayatan, Mustafa Shukor, Jayneel Parekh, Arnaud Dapogny, Matthieu Cord
分类: cs.AI, cs.CL, cs.CV
发布日期: 2025-01-06 (更新: 2025-08-13)
备注: ICCV 2025. The first three authors contributed equally. Project page and code: https://pegah- kh.github.io/projects/lmm-finetuning-analysis-and-steering/
💡 一句话要点
提出一种免训练的多模态LLM行为可解释性与控制框架,用于分析和引导模型。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态大语言模型 可解释性 概念偏移 模型引导 模型去偏见 安全性控制 表征学习
📋 核心要点
- 多模态大语言模型行为复杂,微调过程可能引入偏差,缺乏有效的分析工具。
- 论文提出将隐藏状态映射到可解释的概念,通过概念偏移向量分析微调带来的语义变化。
- 该方法无需训练,可用于模型去偏见和安全性控制,实现MLLM的引导。
📝 摘要(中文)
多模态大型语言模型(MLLM)在理解多模态输入方面已达到卓越水平。然而,理解和解释这种复杂模型的行为是一项具有挑战性的任务,更不用说微调期间可能发生的动态变化,或者数据集之间的协变量偏移。在这项工作中,我们应用概念级分析来实现MLLM的理解。更具体地说,我们建议将隐藏状态映射到可解释的视觉和文本概念。这使我们能够更有效地比较某些语义动态,例如原始模型和微调模型之间的转换,从而揭示在微调期间可能发生的概念改变和潜在偏差。我们还展示了使用偏移向量来捕获这些概念变化。这些偏移向量允许我们通过在原始模型中应用简单的、计算上廉价的加性概念偏移来恢复微调后的概念。最后,我们的发现也直接应用于MLLM引导,可用于模型去偏见以及在MLLM输出中强制执行安全性。总而言之,我们提出了一种新颖的、免训练的、即用型框架,用于MLLM行为的可解释性和控制。我们的实现已公开。
🔬 方法详解
问题定义:论文旨在解决多模态大型语言模型(MLLM)在微调过程中产生的表示偏移问题,即模型对概念的理解和处理方式发生改变,可能引入偏差或不安全行为。现有方法难以有效解释和控制这种偏移,缺乏对模型内部表征的细粒度理解。
核心思路:论文的核心思路是将MLLM的隐藏状态与可解释的视觉和文本概念联系起来。通过分析微调前后概念表示的差异(即概念偏移),可以理解模型行为的变化。利用概念偏移向量,可以在原始模型中模拟微调后的概念,从而实现模型引导和控制。
技术框架:该框架主要包含以下几个阶段:1) 提取MLLM的隐藏状态;2) 将隐藏状态映射到预定义的视觉和文本概念空间;3) 计算微调前后概念表示的偏移向量;4) 利用偏移向量在原始模型中进行概念干预,实现模型引导。整个框架无需额外的训练。
关键创新:该方法的主要创新在于提出了一种免训练的概念级分析框架,用于理解和控制MLLM的微调行为。与传统的黑盒方法相比,该方法提供了对模型内部表征的细粒度理解,能够识别和纠正微调引入的偏差。此外,利用概念偏移向量进行模型引导,计算成本低,易于实现。
关键设计:论文的关键设计包括:1) 如何选择合适的视觉和文本概念空间,以确保概念的可解释性和覆盖性;2) 如何定义和计算概念偏移向量,以准确捕捉微调带来的语义变化;3) 如何利用偏移向量进行有效的模型引导,例如通过在隐藏状态中添加偏移向量来改变模型的输出。
🖼️ 关键图片
📊 实验亮点
论文提出了一种免训练的概念级分析框架,能够有效识别和量化MLLM微调过程中的概念偏移。通过概念偏移向量,可以在原始模型中模拟微调后的概念,实现模型引导和控制。实验结果表明,该方法能够有效地进行模型去偏见和安全性控制,为MLLM的行为理解和干预提供了新的思路。
🎯 应用场景
该研究成果可应用于多个领域,例如:1) MLLM的安全性评估和增强,通过识别和消除模型中的不安全概念,防止生成有害内容;2) 模型去偏见,纠正模型对特定群体的歧视性行为;3) 个性化模型定制,根据用户需求调整模型对特定概念的理解和处理方式。该方法有望提升MLLM的可控性和可靠性,促进其在实际场景中的应用。
📄 摘要(原文)
Multimodal LLMs (MLLMs) have reached remarkable levels of proficiency in understanding multimodal inputs. However, understanding and interpreting the behavior of such complex models is a challenging task, not to mention the dynamic shifts that may occur during fine-tuning, or due to covariate shift between datasets. In this work, we apply concept-level analysis towards MLLM understanding. More specifically, we propose to map hidden states to interpretable visual and textual concepts. This enables us to more efficiently compare certain semantic dynamics, such as the shift from an original and fine-tuned model, revealing concept alteration and potential biases that may occur during fine-tuning. We also demonstrate the use of shift vectors to capture these concepts changes. These shift vectors allow us to recover fine-tuned concepts by applying simple, computationally inexpensive additive concept shifts in the original model. Finally, our findings also have direct applications for MLLM steering, which can be used for model debiasing as well as enforcing safety in MLLM output. All in all, we propose a novel, training-free, ready-to-use framework for MLLM behavior interpretability and control. Our implementation is publicly available.