Trust Region Preference Approximation: A simple and stable reinforcement learning algorithm for LLM reasoning

📄 arXiv: 2504.04524v2 📥 PDF

作者: Xuerui Su, Shufang Xie, Guoqing Liu, Yingce Xia, Renqian Luo, Peiran Jin, Zhiming Ma, Yue Wang, Zun Wang, Yuting Liu

分类: cs.LG, cs.AI

发布日期: 2025-04-06 (更新: 2025-06-18)

备注: 10pages

🔗 代码/项目: GITHUB


💡 一句话要点

提出TRPA算法,结合规则与偏好优化,提升LLM在推理任务中的性能与稳定性。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 强化学习 偏好优化 推理任务 奖励操纵

📋 核心要点

  1. 现有基于奖励的强化学习方法在LLM推理中易受奖励操纵,而基于偏好的方法性能有待提升。
  2. TRPA算法结合规则与偏好优化,通过预定义规则构建偏好,并采用新的优化算法进行强化学习。
  3. 实验表明,TRPA在推理任务中表现出竞争力的性能和强大的稳定性,有效避免奖励操纵。

📝 摘要(中文)

近年来,大型语言模型(LLMs)迅速发展,在增强人类对齐(HA)和推理能力方面取得了显著进展,逐渐逼近通用人工智能(AGI)。基于奖励的优化算法,如近端策略优化(PPO)和群体相对策略优化(GRPO),在推理任务上表现出色,而基于偏好的优化算法,如直接偏好优化(DPO),则显著提升了LLMs在人类对齐方面的性能。然而,基于奖励的优化方法容易受到奖励操纵的影响。此外,基于偏好的算法(如在线DPO)在推理任务上的性能尚未达到基于奖励的优化算法(如PPO)的水平。为了解决这些挑战,我们提出了信任域偏好近似(TRPA)算法,该算法将基于规则的优化与基于偏好的优化相结合,用于推理任务。作为一种基于偏好的算法,TRPA自然地消除了奖励操纵问题。TRPA使用预定义的规则构建偏好级别,形成相应的偏好对,并利用一种新的优化算法进行RL训练,具有理论上的单调改进保证。实验结果表明,TRPA不仅在推理任务上取得了有竞争力的性能,而且表现出强大的稳定性。

🔬 方法详解

问题定义:现有基于奖励的强化学习方法,如PPO和GRPO,虽然在LLM推理任务上取得了不错的性能,但容易受到奖励操纵(reward hacking)的影响,导致模型学习到不符合预期的行为。而基于偏好的方法,如DPO,虽然在人类对齐方面表现出色,但在推理任务上的性能仍不如基于奖励的方法。因此,如何设计一种既能避免奖励操纵,又能保证推理性能的强化学习算法是一个挑战。

核心思路:TRPA的核心思路是将基于规则的优化与基于偏好的优化相结合。通过预定义的规则来构建偏好级别,从而避免了直接使用奖励函数,降低了奖励操纵的风险。同时,利用偏好信息进行强化学习,旨在提升LLM在推理任务上的性能。这种结合利用了规则的稳定性和偏好的灵活性。

技术框架:TRPA算法的整体框架包括以下几个主要步骤:1) 偏好构建:使用预定义的规则来确定不同行为的偏好级别,例如,根据推理步骤的正确性或输出结果的质量来划分偏好等级。2) 偏好配对:基于偏好级别,构建偏好对,即确定哪些行为优于哪些行为。3) 策略优化:使用一种新的优化算法,基于偏好对来更新LLM的策略,目标是使模型更倾向于产生更受偏好的行为。该优化算法具有理论上的单调改进保证,确保训练过程的稳定性。

关键创新:TRPA的关键创新在于将规则与偏好相结合,并设计了一种新的优化算法。与传统的基于奖励的强化学习方法相比,TRPA避免了直接使用奖励函数,从而降低了奖励操纵的风险。与传统的基于偏好的方法相比,TRPA利用规则来指导偏好构建,从而提高了偏好信息的质量,有助于提升推理性能。此外,新的优化算法保证了训练过程的单调改进,提高了算法的稳定性。

关键设计:TRPA算法的关键设计包括:1) 规则设计:如何设计有效的规则来确定偏好级别是一个重要问题。规则需要能够准确地反映行为的优劣,并且易于实现。2) 偏好配对策略:如何有效地构建偏好对,例如,选择哪些行为进行比较,以及如何平衡不同偏好级别的样本数量,会影响算法的性能。3) 优化算法:新的优化算法需要能够有效地利用偏好信息来更新策略,并且保证训练过程的稳定性。论文中可能包含关于损失函数、学习率、信任域大小等参数的具体设置。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,TRPA算法在推理任务上取得了与现有方法相当甚至更好的性能,同时表现出更强的稳定性。具体而言,TRPA在某些推理任务上的性能超过了PPO等基线方法,并且在训练过程中更加稳定,不易出现性能下降的情况。这些结果验证了TRPA算法的有效性和优越性。

🎯 应用场景

TRPA算法可应用于各种需要LLM进行推理的场景,例如问答系统、代码生成、数学问题求解等。通过提升LLM的推理能力和稳定性,TRPA可以提高这些应用的用户体验和可靠性。此外,TRPA避免了奖励操纵的风险,使其更适合于需要安全可靠的LLM应用的场景。

📄 摘要(原文)

Recently, Large Language Models (LLMs) have rapidly evolved, approaching Artificial General Intelligence (AGI) while benefiting from large-scale reinforcement learning to enhance Human Alignment (HA) and Reasoning. Recent reward-based optimization algorithms, such as Proximal Policy Optimization (PPO) and Group Relative Policy Optimization (GRPO) have achieved significant performance on reasoning tasks, whereas preference-based optimization algorithms such as Direct Preference Optimization (DPO) significantly improve the performance of LLMs on human alignment. However, despite the strong performance of reward-based optimization methods in alignment tasks , they remain vulnerable to reward hacking. Furthermore, preference-based algorithms (such as Online DPO) haven't yet matched the performance of reward-based optimization algorithms (like PPO) on reasoning tasks, making their exploration in this specific area still a worthwhile pursuit. Motivated by these challenges, we propose the Trust Region Preference Approximation (TRPA) algorithm, which integrates rule-based optimization with preference-based optimization for reasoning tasks. As a preference-based algorithm, TRPA naturally eliminates the reward hacking issue. TRPA constructs preference levels using predefined rules, forms corresponding preference pairs, and leverages a novel optimization algorithm for RL training with a theoretical monotonic improvement guarantee. Experimental results demonstrate that TRPA not only achieves competitive performance on reasoning tasks but also exhibits robust stability. The code of this paper are released and updating on https://github.com/XueruiSu/Trust-Region-Preference-Approximation.git.