Walking the Tightrope: Disentangling Beneficial and Detrimental Drifts in Non-Stationary Custom-Tuning

作者: Xiaoyu Yang, Jie Lu, En Yu

分类: cs.LG, cs.CV

发布日期: 2025-05-19

备注: 17 pages, 5figures

💡 一句话要点

提出CPO方法，解决多模态大语言模型在非平稳RFT中推理漂移问题

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 强化微调 概念漂移 反事实推理 偏好优化

📋 核心要点

现有MLLM在非平稳RFT中存在CoT推理的概念漂移问题，导致预测偏差。
提出Counterfactual Preference Optimization (CPO)方法，通过反事实推理分离有益适应和有害漂移。
实验表明CPO在鲁棒性、泛化性和协调性方面优于现有方法，并发布了CXR-CounterFact数据集。

📝 摘要（中文）

本文揭示了多模态大语言模型(MLLM)中一个关键但被忽视的现象：在非平稳强化微调(RFT)期间，思维链(CoT)推理中出现有害的概念漂移，其中推理token分布不可预测地演变，从而在最终预测中引入显著偏差。为了解决这个问题，我们率先建立了概念漂移理论和RFT过程之间的理论桥梁，将CoT的自回归token流形式化为经历任意时间偏移的非平稳分布。在此框架下，我们提出了一种新颖的反事实感知RFT，通过概念图增强的LLM专家生成反事实推理轨迹，系统地将有益的分布适应与有害的概念漂移分离。我们的解决方案，反事实偏好优化(CPO)，通过反事实感知偏好对齐，实现了非平稳环境（特别是在医学领域）中稳定的RFT。大量实验证明了我们在RFT中的鲁棒性、泛化性和协调性的卓越性能。此外，我们还贡献了一个大规模数据集CXR-CounterFact (CCF)，其中包含320,416个从MIMIC-CXR精心策划的反事实推理轨迹。我们的代码和数据已公开。

🔬 方法详解

问题定义：论文旨在解决多模态大语言模型（MLLM）在非平稳强化微调（RFT）过程中，由于思维链（CoT）推理中出现概念漂移而导致的预测偏差问题。现有的RFT方法未能有效区分和处理有益的分布适应和有害的概念漂移，导致模型性能不稳定，尤其是在医学等专业领域。

核心思路：论文的核心思路是通过反事实推理来解耦有益的分布适应和有害的概念漂移。通过生成反事实推理轨迹，模型可以学习区分哪些推理路径是有助于提高性能的，哪些是导致偏差的。这种方法允许模型在RFT过程中更加稳定地学习，避免受到有害概念漂移的影响。

技术框架：整体框架包括以下几个主要模块：1) 概念图构建：利用领域知识构建概念图，用于指导反事实推理轨迹的生成。2) LLM专家生成器：利用概念图增强的LLM专家生成反事实推理轨迹，这些轨迹代表了不同的推理路径。3) 反事实偏好优化（CPO）：通过优化模型在真实和反事实推理轨迹上的偏好，实现有益适应和有害漂移的分离。4) RFT过程：利用CPO方法进行强化微调，使模型在非平稳环境中保持稳定。

关键创新：论文的关键创新在于：1) 理论桥梁：建立了概念漂移理论和RFT过程之间的理论联系，将CoT的自回归token流形式化为非平稳分布。2) 反事实推理：利用反事实推理来解耦有益适应和有害漂移，这是现有方法所缺乏的。3) CPO方法：提出了一种新的反事实偏好优化方法，用于稳定非平稳环境下的RFT。

关键设计：论文的关键设计包括：1) 概念图的构建方法：如何有效地利用领域知识构建概念图，以指导反事实推理轨迹的生成。2) LLM专家的训练方法：如何训练LLM专家，使其能够生成高质量的反事实推理轨迹。3) CPO的损失函数设计：如何设计损失函数，以优化模型在真实和反事实推理轨迹上的偏好，实现有益适应和有害漂移的分离。具体的参数设置和网络结构细节在论文中有详细描述，此处不再赘述。

🖼️ 关键图片

📊 实验亮点

实验结果表明，CPO方法在非平稳RFT中表现出卓越的鲁棒性、泛化性和协调性。与现有方法相比，CPO能够更有效地分离有益适应和有害漂移，从而提高模型在医疗诊断等任务中的准确率和稳定性。此外，论文还贡献了一个大规模数据集CXR-CounterFact (CCF)，为相关研究提供了宝贵的数据资源。

🎯 应用场景

该研究成果可应用于医疗诊断、金融风控等对模型稳定性和可靠性要求高的领域。通过解决非平稳环境下的概念漂移问题，可以提高MLLM在实际应用中的性能和泛化能力，降低误判风险，为相关领域的智能化发展提供有力支持。未来，该方法有望推广到其他模态和任务中。

📄 摘要（原文）

This paper uncovers a critical yet overlooked phenomenon in multi-modal large language models (MLLMs): detrimental concept drift within chain-of-thought (CoT) reasoning during non-stationary reinforcement fine-tuning (RFT), where reasoning token distributions evolve unpredictably, thereby introducing significant biases in final predictions. To address this, we are pioneers in establishing the theoretical bridge between concept drift theory and RFT processes by formalizing CoT's autoregressive token streams as non-stationary distributions undergoing arbitrary temporal shifts. Leveraging this framework, we propose a novel counterfact-aware RFT that systematically decouples beneficial distribution adaptation from harmful concept drift through concept graph-empowered LLM experts generating counterfactual reasoning trajectories. Our solution, Counterfactual Preference Optimization (CPO), enables stable RFT in non-stationary environments, particularly within the medical domain, through custom-tuning of counterfactual-aware preference alignment. Extensive experiments demonstrate our superior performance of robustness, generalization and coordination within RFT. Besides, we also contributed a large-scale dataset CXR-CounterFact (CCF), comprising 320,416 meticulously curated counterfactual reasoning trajectories derived from MIMIC-CXR. Our code and data are public.

Walking the Tightrope: Disentangling Beneficial and Detrimental Drifts in Non-Stationary Custom-Tuning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理