SPC: Evolving Self-Play Critic via Adversarial Games for LLM Reasoning

📄 arXiv: 2504.19162v2 📥 PDF

作者: Jiaqi Chen, Bang Zhang, Ruotian Ma, Peisong Wang, Xiaodan Liang, Zhaopeng Tu, Xiaolong Li, Kwan-Yee K. Wong

分类: cs.CL, cs.AI, cs.LG

发布日期: 2025-04-27 (更新: 2025-05-17)

备注: Project webpage: https://chen-judge.github.io/SPC/


💡 一句话要点

提出SPC:通过对抗博弈演化自博弈评论家,提升LLM推理能力

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 推理过程 自博弈学习 对抗训练 强化学习

📋 核心要点

  1. 现有LLM推理过程评估缺乏高质量的步骤级监督,导致难以准确评估每一步的可靠性,标注成本高昂。
  2. SPC通过对抗性自博弈,让生成器和评论家模型相互对抗,利用强化学习迭代提升评论家识别错误推理步骤的能力。
  3. 实验表明,SPC显著提升了错误检测能力,并在数学推理任务上超越了现有最佳方法,验证了其有效性。

📝 摘要(中文)

本文提出了一种新颖的自博弈评论家(SPC)方法,旨在解决大型语言模型(LLM)推理过程(如思维链)中逐步可靠性评估的难题,该难题源于获取高质量步骤级别监督的困难和高成本。SPC通过对抗性自博弈游戏,使评论家模型能够演化其评估推理步骤的能力,从而消除了手动步骤级别注释的需求。SPC涉及微调基础模型的两个副本,分别扮演“狡猾的生成器”和“评论家”的角色。生成器故意产生难以检测的错误步骤,而评论家分析推理步骤的正确性。这两个模型参与对抗性博弈,生成器的目标是欺骗评论家,而评论家模型试图识别生成器的错误。通过基于博弈结果的强化学习,模型迭代改进;每次对抗的获胜者获得正向奖励,失败者获得负向奖励,从而驱动持续的自我演化。在三个推理过程基准(ProcessBench、PRM800K、DeltaBench)上的实验表明,SPC逐步增强了其错误检测能力(例如,在ProcessBench上的准确率从70.8%提高到77.7%),并超越了强大的基线,包括蒸馏的R1模型。此外,SPC可以指导各种LLM的测试时搜索,并显着提高它们在MATH500和AIME2024上的数学推理性能,超过了由最先进的过程奖励模型指导的性能。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)推理过程(如思维链)中,由于缺乏高质量的步骤级监督,导致难以评估每一步推理的正确性和可靠性的问题。现有方法依赖人工标注,成本高昂且难以扩展。

核心思路:论文的核心思路是通过对抗性自博弈,训练一个能够自动评估推理步骤正确性的“评论家”模型。通过让两个模型(生成器和评论家)相互对抗,生成器试图生成难以被评论家识别的错误推理步骤,而评论家则努力识别这些错误。这种对抗过程可以有效地提升评论家的错误检测能力。

技术框架:SPC框架包含两个主要模块:一个“狡猾的生成器”和一个“评论家”。这两个模块都是基于同一个预训练LLM微调得到的。生成器负责生成包含错误推理步骤的序列,而评论家负责评估这些步骤的正确性。这两个模型在一个对抗性博弈中进行交互,通过强化学习算法,根据博弈结果更新模型参数。具体流程是:生成器生成推理过程,评论家对每一步进行评分,根据评分结果判断生成器是否成功欺骗了评论家。根据判断结果,给予生成器和评论家相应的奖励或惩罚。

关键创新:SPC的关键创新在于利用对抗性自博弈来训练评论家模型,从而避免了对人工标注的依赖。通过让生成器和评论家相互对抗,可以有效地挖掘出推理过程中的潜在错误,并提升评论家的错误检测能力。这种自监督的学习方式可以降低标注成本,并提高模型的可扩展性。

关键设计:在SPC中,奖励函数的设计至关重要。如果评论家成功识别出生成器的错误,则评论家获得正向奖励,生成器获得负向奖励;反之,如果评论家未能识别出生成器的错误,则生成器获得正向奖励,评论家获得负向奖励。这种奖励机制鼓励生成器生成更难以检测的错误,同时也促使评论家不断提升其错误检测能力。此外,论文还探索了不同的强化学习算法,例如Proximal Policy Optimization (PPO),来优化模型参数。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,SPC在ProcessBench数据集上将错误检测准确率从70.8%提高到77.7%,显著优于基线模型。在数学推理任务MATH500和AIME2024上,SPC指导的LLM性能超过了由最先进的过程奖励模型指导的性能,验证了SPC在提升LLM推理能力方面的有效性。

🎯 应用场景

SPC可应用于各种需要LLM进行复杂推理的场景,例如数学问题求解、代码生成、知识图谱推理等。通过提高LLM推理过程的可靠性,可以减少错误答案的产生,提高任务完成的质量和效率。此外,SPC还可以用于评估和改进LLM的推理能力,为LLM的持续发展提供支持。

📄 摘要(原文)

Evaluating the step-by-step reliability of large language model (LLM) reasoning, such as Chain-of-Thought, remains challenging due to the difficulty and cost of obtaining high-quality step-level supervision. In this paper, we introduce Self-Play Critic (SPC), a novel approach where a critic model evolves its ability to assess reasoning steps through adversarial self-play games, eliminating the need for manual step-level annotation. SPC involves fine-tuning two copies of a base model to play two roles, namely a "sneaky generator" that deliberately produces erroneous steps designed to be difficult to detect, and a "critic" that analyzes the correctness of reasoning steps. These two models engage in an adversarial game in which the generator aims to fool the critic, while the critic model seeks to identify the generator's errors. Using reinforcement learning based on the game outcomes, the models iteratively improve; the winner of each confrontation receives a positive reward and the loser receives a negative reward, driving continuous self-evolution. Experiments on three reasoning process benchmarks (ProcessBench, PRM800K, DeltaBench) demonstrate that our SPC progressively enhances its error detection capabilities (e.g., accuracy increases from 70.8% to 77.7% on ProcessBench) and surpasses strong baselines, including distilled R1 model. Furthermore, SPC can guide the test-time search of diverse LLMs and significantly improve their mathematical reasoning performance on MATH500 and AIME2024, surpassing those guided by state-of-the-art process reward models.