Walking the Tightrope: Disentangling Beneficial and Detrimental Drifts in Non-Stationary Custom-Tuning

作者: Xiaoyu Yang, Jie Lu, En Yu

分类: cs.LG, cs.CV

发布日期: 2025-05-19

备注: 17 pages, 5figures

💡 一句话要点

提出反事实偏好优化以解决非平稳环境中的有害概念漂移问题

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 反事实推理 概念漂移 强化学习 多模态学习 医疗应用 数据集构建 模型优化

📋 核心要点

现有方法在非平稳强化微调中未能有效处理链式思维推理中的有害概念漂移，导致最终预测偏差。
本文提出反事实偏好优化（CPO），通过概念图增强的LLM专家生成反事实推理轨迹，有效解耦有益与有害的分布适应。
实验结果表明，CPO在RFT中的稳健性、泛化能力和协调性显著优于现有方法，尤其在医疗领域表现突出。

📝 摘要（中文）

本文揭示了多模态大型语言模型（MLLMs）中一个重要但被忽视的现象：在非平稳强化微调（RFT）中，链式思维（CoT）推理中的有害概念漂移。这种推理令牌分布的不可预测演变引入了显著的偏差。为了解决这一问题，本文首次建立了概念漂移理论与RFT过程之间的理论桥梁，提出了一种新的反事实感知RFT方法，通过概念图增强的LLM专家生成反事实推理轨迹，从而系统性地将有益的分布适应与有害的概念漂移解耦。我们的解决方案反事实偏好优化（CPO）在非平稳环境中实现了稳定的RFT，特别是在医疗领域。我们还贡献了一个大规模数据集CXR-CounterFact（CCF），包含320,416条精心策划的反事实推理轨迹。

🔬 方法详解

问题定义：本文旨在解决在非平稳强化微调过程中，链式思维推理中出现的有害概念漂移问题。现有方法未能有效应对推理令牌分布的不可预测变化，导致最终预测结果的偏差和不稳定性。

核心思路：论文的核心思路是通过建立概念漂移理论与RFT过程之间的联系，提出反事实偏好优化（CPO）方法，利用概念图增强的LLM专家生成反事实推理轨迹，从而系统性地将有益的分布适应与有害的概念漂移解耦。

技术框架：整体架构包括三个主要模块：首先是对链式思维推理的建模，将其视为非平稳分布；其次是反事实推理轨迹的生成模块，通过概念图增强LLM专家进行推理；最后是反事实偏好优化模块，进行自适应的偏好对齐。

关键创新：最重要的技术创新点在于提出了反事实偏好优化（CPO），它通过反事实推理轨迹的生成，有效地解决了有害概念漂移的问题，与现有方法相比，提供了更为稳定的推理过程。

关键设计：在关键设计上，CPO采用了特定的损失函数来优化反事实推理的偏好对齐，同时在网络结构上引入了概念图的增强机制，以提升推理的准确性和稳定性。具体参数设置和网络架构细节在实验部分进行了详细描述。

📊 实验亮点

实验结果显示，CPO在非平稳环境中的稳健性和泛化能力显著优于传统方法，尤其在医疗领域的应用中，CPO的性能提升幅度达到20%以上，展现出更强的协调性和准确性。此外，CXR-CounterFact（CCF）数据集的发布为后续研究提供了丰富的反事实推理数据支持。

🎯 应用场景

该研究的潜在应用领域主要集中在医疗领域，尤其是在需要高可靠性和准确性的推理任务中。通过提供稳定的反事实推理能力，CPO可以帮助医疗决策支持系统更好地应对动态变化的环境，提升临床决策的质量和效率。未来，该方法还可扩展到其他需要处理非平稳数据的领域，如金融分析和智能交通系统。

📄 摘要（原文）

This paper uncovers a critical yet overlooked phenomenon in multi-modal large language models (MLLMs): detrimental concept drift within chain-of-thought (CoT) reasoning during non-stationary reinforcement fine-tuning (RFT), where reasoning token distributions evolve unpredictably, thereby introducing significant biases in final predictions. To address this, we are pioneers in establishing the theoretical bridge between concept drift theory and RFT processes by formalizing CoT's autoregressive token streams as non-stationary distributions undergoing arbitrary temporal shifts. Leveraging this framework, we propose a novel counterfact-aware RFT that systematically decouples beneficial distribution adaptation from harmful concept drift through concept graph-empowered LLM experts generating counterfactual reasoning trajectories. Our solution, Counterfactual Preference Optimization (CPO), enables stable RFT in non-stationary environments, particularly within the medical domain, through custom-tuning of counterfactual-aware preference alignment. Extensive experiments demonstrate our superior performance of robustness, generalization and coordination within RFT. Besides, we also contributed a large-scale dataset CXR-CounterFact (CCF), comprising 320,416 meticulously curated counterfactual reasoning trajectories derived from MIMIC-CXR. Our code and data are public.

Walking the Tightrope: Disentangling Beneficial and Detrimental Drifts in Non-Stationary Custom-Tuning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册