DeepCritic: Deliberate Critique with Large Language Models

📄 arXiv: 2505.00662v1 📥 PDF

作者: Wenkai Yang, Jingwen Chen, Yankai Lin, Ji-Rong Wen

分类: cs.CL, cs.AI, cs.LG

发布日期: 2025-05-01

备注: Work in progress. Data and models are available at https://github.com/RUCBM/DeepCritic


💡 一句话要点

DeepCritic:利用大语言模型进行数学问题求解过程的深度批判,提升反馈质量。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 批判模型 数学问题求解 监督微调 强化学习 错误识别 自动化反馈

📋 核心要点

  1. 现有LLM批判模型对数学问题求解过程的批判过于浅显,导致判断准确率低,难以有效指导LLM生成器纠错。
  2. 提出DeepCritic,一个两阶段框架,首先生成高质量长篇批判数据进行监督微调,然后通过强化学习进一步提升批判能力。
  3. 实验表明,DeepCritic显著优于现有LLM批判模型,包括DeepSeek-R1-distill和GPT-4o,并能更有效地帮助LLM生成器改进错误步骤。

📝 摘要(中文)

随着大语言模型(LLMs)的快速发展,对其输出提供准确反馈和可扩展的监督成为一个紧迫而关键的问题。利用LLMs作为批判模型来实现自动化监督是一个很有前景的解决方案。本文着重研究和提升LLMs的数学批判能力。现有的LLM批判者对每个步骤提供的批判过于浅显和表面化,导致判断准确率低,并且难以提供足够的反馈来让LLM生成器纠正错误。为了解决这个问题,我们提出了一个新颖有效的两阶段框架来开发LLM批判者,使其能够对数学解决方案的每个推理步骤进行深入批判。在第一阶段,我们利用Qwen2.5-72B-Instruct生成4.5K长篇批判作为监督微调的种子数据。每个种子批判都包含深思熟虑的逐步批判,包括多角度验证以及对每个推理步骤的初始批判的深入批判。然后,我们使用来自PRM800K的现有人工标注数据或通过基于蒙特卡洛抽样的正确性估计获得的自动标注数据,对微调模型进行强化学习,以进一步激励其批判能力。我们基于Qwen2.5-7B-Instruct构建的批判模型不仅在各种错误识别基准测试中显著优于现有的LLM批判者(包括相同大小的DeepSeek-R1-distill模型和GPT-4o),而且通过更详细的反馈更有效地帮助LLM生成器改进错误的步骤。

🔬 方法详解

问题定义:论文旨在解决大语言模型在数学问题求解过程中,现有批判模型无法提供深入、准确反馈的问题。现有方法提供的批判过于表面化,难以有效识别和纠正LLM生成器在推理过程中的错误,导致最终答案的准确率不高。

核心思路:论文的核心思路是构建一个能够进行深度批判的LLM批判模型。该模型通过两阶段训练,首先学习生成高质量的批判文本,然后通过强化学习进一步提升其批判能力,使其能够更准确地识别错误并提供更有效的反馈。

技术框架:DeepCritic框架包含两个主要阶段:1) 监督微调阶段:利用Qwen2.5-72B-Instruct生成4.5K长篇批判作为种子数据,对LLM进行监督微调。这些批判包含对每个推理步骤的多角度验证和深入分析。2) 强化学习阶段:使用人工标注数据(PRM800K)或自动标注数据(基于蒙特卡洛抽样)对微调后的模型进行强化学习,以进一步提升其批判能力。

关键创新:论文的关键创新在于提出了一个两阶段的训练框架,该框架能够有效地提升LLM的批判能力。通过生成高质量的批判数据和利用强化学习进行优化,DeepCritic能够更准确地识别错误并提供更有效的反馈。此外,自动标注数据的生成方法也是一个创新点,它降低了对人工标注数据的依赖。

关键设计:在监督微调阶段,使用了Qwen2.5-72B-Instruct模型生成长篇批判数据。在强化学习阶段,使用了PRM800K数据集或基于蒙特卡洛抽样生成的自动标注数据。奖励函数的设计是强化学习的关键,论文中可能使用了基于正确性估计的奖励函数来激励模型识别错误。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

DeepCritic在各种错误识别基准测试中显著优于现有LLM批判模型,包括相同大小的DeepSeek-R1-distill模型和GPT-4o。实验结果表明,DeepCritic能够更有效地帮助LLM生成器改进错误的步骤,提升数学问题求解的准确率。

🎯 应用场景

DeepCritic可应用于自动化教育辅导系统,为学生提供更精准的解题反馈和指导。此外,该技术还可用于提升LLM在其他领域的推理能力,例如代码调试、科学研究等,通过批判性分析来提高生成内容的质量和可靠性。

📄 摘要(原文)

As Large Language Models (LLMs) are rapidly evolving, providing accurate feedback and scalable oversight on their outputs becomes an urgent and critical problem. Leveraging LLMs as critique models to achieve automated supervision is a promising solution. In this work, we focus on studying and enhancing the math critique ability of LLMs. Current LLM critics provide critiques that are too shallow and superficial on each step, leading to low judgment accuracy and struggling to offer sufficient feedback for the LLM generator to correct mistakes. To tackle this issue, we propose a novel and effective two-stage framework to develop LLM critics that are capable of deliberately critiquing on each reasoning step of math solutions. In the first stage, we utilize Qwen2.5-72B-Instruct to generate 4.5K long-form critiques as seed data for supervised fine-tuning. Each seed critique consists of deliberate step-wise critiques that includes multi-perspective verifications as well as in-depth critiques of initial critiques for each reasoning step. Then, we perform reinforcement learning on the fine-tuned model with either existing human-labeled data from PRM800K or our automatically annotated data obtained via Monte Carlo sampling-based correctness estimation, to further incentivize its critique ability. Our developed critique model built on Qwen2.5-7B-Instruct not only significantly outperforms existing LLM critics (including the same-sized DeepSeek-R1-distill models and GPT-4o) on various error identification benchmarks, but also more effectively helps the LLM generator refine erroneous steps through more detailed feedback.