Causally-Enhanced Reinforcement Policy Optimization
作者: Xiangqi Wang, Yue Huang, Yujun Zhou, Xiaonan Luo, Kehan Guo, Xiangliang Zhang
分类: cs.LG, cs.AI, cs.CL
发布日期: 2025-09-27
备注: Reinforcement learning publication of 24 pages
💡 一句话要点
提出因果增强策略优化以解决强化学习中的奖励黑客问题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 因果推理 强化学习 奖励塑形 模型鲁棒性 雅可比敏感性 自然语言处理 推理系统
📋 核心要点
- 现有的强化学习方法在处理因果推理时容易受到奖励黑客的影响,导致模型输出不可靠的推理过程。
- 本文提出的CE-PO框架通过增强因果一致性来优化策略,利用雅可比敏感性和反事实信号来抑制干扰。
- 实验结果表明,CE-PO在四个数据集上平均提高了5.49%的准确性,并增强了模型对因果翻转的鲁棒性。
📝 摘要(中文)
大型语言模型(LLMs)在强化学习目标下训练时,常通过捷径策略获得表面正确的答案,导致推理不可靠且在小的因果扰动下表现不佳。本文提出因果增强策略优化(CE-PO),这是一个奖励塑形框架,通过在从提示(Z)到推理(X)再到答案(Y)的生成路径上增强因果一致性来改进策略优化。CE-PO利用雅可比敏感性估计模型内部影响,反事实地强化这些信号以抑制干扰线索,并通过Minkowski组合器将生成的一致性评分与任务准确性反馈融合,提供一个可调的准确性与一致性之间的权衡。实验结果显示,CE-PO在四个数据集上平均提高了5.49%的准确性,同时增强了对因果翻转和轻微反事实编辑的鲁棒性。
🔬 方法详解
问题定义:现有的强化学习方法在面对因果推理时,常常依赖捷径策略,导致模型输出的推理过程不可靠,容易受到奖励黑客的影响。
核心思路:CE-PO通过引入因果一致性的增强机制,利用模型内部的雅可比敏感性来反事实地强化信号,从而抑制干扰线索,提升推理的可靠性。
技术框架:CE-PO的整体架构包括三个主要模块:从提示到推理的生成路径、雅可比敏感性计算模块和Minkowski组合器,用于融合一致性评分与任务反馈。
关键创新:CE-PO的核心创新在于将因果一致性与策略优化相结合,提供了一个可调的准确性与一致性之间的权衡,显著改善了模型的推理质量。
关键设计:在设计中,CE-PO使用了雅可比矩阵来计算模型内部的敏感性,并通过反事实方法强化这些信号,同时采用Minkowski组合器来整合不同的反馈信号。具体的损失函数和参数设置在实验中进行了优化。
🖼️ 关键图片
📊 实验亮点
实验结果显示,CE-PO在四个数据集上平均提高了5.49%的准确性,最高提升可达9.58%。此外,CE-PO显著增强了模型对因果翻转和轻微反事实编辑的鲁棒性,展示了其在推理任务中的有效性。
🎯 应用场景
该研究的潜在应用领域包括自然语言处理、智能问答系统和自动推理等。通过提高模型的因果推理能力,CE-PO能够在复杂任务中提供更可靠的输出,具有重要的实际价值和未来影响。
📄 摘要(原文)
Large language models (LLMs) trained with reinforcement objectives often achieve superficially correct answers via shortcut strategies, pairing correct outputs with spurious or unfaithful reasoning and degrading under small causal perturbations. We introduce Causally-Enhanced Policy Optimization (CE-PO), a drop-in reward-shaping framework that augments policy optimization with a differentiable proxy for causal coherence along the generation pathway from prompt (Z) to rationale (X) to answer (Y). CE-PO estimates model-internal influence with Jacobian-based sensitivities, counterfactually hardens these signals to suppress nuisance cues, and fuses the resulting coherence score with task-accuracy feedback via a Minkowski (power-mean) combiner, exposing a single tunable between accuracy and coherence trade-off. The unified reward integrates with PPO/GRPO without architectural changes. Across reasoning benchmarks and causal stress tests, CE-PO reduces reward hacking and unfaithful chain-of-thought while improving robustness to correlation-causation flips and light counterfactual edits, all at near-parity accuracy. Experimental results across 4 datasets show that CE-PO improves accuracy over baselines by 5.49% on average (up to 9.58%), while improving robustness to correlation-causation flips and light counterfactual edits.