DEBATE, TRAIN, EVOLVE: Self Evolution of Language Model Reasoning

📄 arXiv: 2505.15734v2 📥 PDF

作者: Gaurav Srivastava, Zhenyu Bi, Meng Lu, Xuan Wang

分类: cs.CL, cs.AI, cs.LG

发布日期: 2025-05-21 (更新: 2025-09-30)

备注: Accepted to EMNLP 2025 Main Conference

🔗 代码/项目: GITHUB


💡 一句话要点

提出DTE框架,通过多智能体辩论和自进化训练提升语言模型推理能力。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 语言模型 推理能力 多智能体辩论 自进化训练 无监督学习

📋 核心要点

  1. 现有LLM推理能力提升依赖大量数据,成本高昂且效率降低,亟需模型自主提升推理能力。
  2. DTE框架利用多智能体辩论生成训练数据,并采用反思-批判-改进策略提升辩论质量。
  3. 实验表明,DTE在多个推理基准上显著提升模型性能,并展现出良好的跨领域泛化能力。

📝 摘要(中文)

大型语言模型(LLMs)通过在海量数据集上的广泛训练,在推理能力方面取得了显著进步。然而,仅仅依靠额外数据来改进模型变得越来越不切实际,这突显了模型在没有外部监督的情况下自主增强推理能力的需求。在本文中,我们提出了辩论、训练、进化(Debate, Train, Evolve, DTE),这是一个新颖的无真实标签训练框架,它使用多智能体辩论轨迹来进化单个语言模型。我们还引入了一种新的提示策略——反思-批判-改进(Reflect-Critique-Refine),通过明确指示智能体批判和改进其推理来提高辩论质量。在七个推理基准和六个开源模型上的大量评估表明,我们的DTE框架取得了显著的改进,在具有挑战性的GSM-PLUS数据集上平均准确率提高了8.92%。此外,我们观察到强大的跨领域泛化能力,在所有其他基准上平均准确率提高了5.8%,这表明我们的方法捕获了一般的推理能力。我们的框架代码和训练模型已在https://github.com/ctrl-gaurav/Debate-Train-Evolve上公开。

🔬 方法详解

问题定义:现有大型语言模型(LLMs)的推理能力提升主要依赖于海量数据的训练,这种方式面临着数据获取成本高昂、训练效率降低等问题。此外,模型缺乏在没有外部监督的情况下自主提升推理能力的方法。因此,需要一种能够使模型在自身基础上进行迭代和改进的训练框架。

核心思路:论文的核心思路是利用多智能体辩论来模拟推理过程,并从中提取有价值的信息用于模型的自我训练和进化。通过让多个智能体针对同一问题进行辩论,可以产生多种不同的推理路径和解决方案,从而为模型提供更丰富的学习素材。同时,引入反思-批判-改进(Reflect-Critique-Refine)的提示策略,引导智能体对自身的推理过程进行反思和改进,进一步提高辩论的质量。

技术框架:DTE框架包含以下几个主要阶段: 1. 辩论阶段:多个智能体针对给定的问题进行辩论,每个智能体提出自己的推理过程和解决方案。 2. 反思-批判-改进阶段:智能体对自身的推理过程进行反思,并对其他智能体的推理过程进行批判,然后根据批判结果改进自己的推理。 3. 训练阶段:利用辩论过程中产生的推理轨迹作为训练数据,对语言模型进行训练,使其学习到更有效的推理策略。 4. 进化阶段:经过训练的模型在新的问题上进行推理,并重复上述过程,不断提升自身的推理能力。

关键创新:DTE框架的关键创新在于: 1. 无真实标签训练:该框架不需要人工标注的真实标签,而是利用多智能体辩论自动生成训练数据,降低了训练成本。 2. 反思-批判-改进提示策略:该策略能够有效提高辩论的质量,从而为模型提供更有效的训练数据。 3. 自进化训练:该框架能够使模型在自身基础上进行迭代和改进,不断提升自身的推理能力。

关键设计: 1. 智能体数量:论文中使用了多个智能体进行辩论,具体数量可能需要根据问题的复杂程度进行调整。 2. 反思-批判-改进策略的具体实现:论文中可能使用了特定的提示语或奖励机制来引导智能体进行反思、批判和改进。 3. 训练数据的选择:论文中可能使用了特定的策略来选择辩论过程中产生的推理轨迹作为训练数据,例如选择那些包含正确答案的推理轨迹。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

DTE框架在七个推理基准上进行了广泛的评估,结果表明该框架能够显著提升语言模型的推理能力。在具有挑战性的GSM-PLUS数据集上,DTE框架取得了平均8.92%的准确率提升。此外,该框架还展现出强大的跨领域泛化能力,在所有其他基准上平均准确率提高了5.8%。这些结果表明,DTE框架能够有效捕获一般的推理能力。

🎯 应用场景

DTE框架具有广泛的应用前景,可用于提升各种语言模型的推理能力,尤其是在缺乏标注数据的场景下。该框架可以应用于问答系统、知识图谱推理、代码生成等领域,提高这些应用的准确性和可靠性。此外,DTE框架还可以促进语言模型的自主学习和进化,使其能够更好地适应复杂多变的任务需求。

📄 摘要(原文)

Large language models (LLMs) have improved significantly in their reasoning through extensive training on massive datasets. However, relying solely on additional data for improvement is becoming increasingly impractical, highlighting the need for models to autonomously enhance their reasoning without external supervision. In this paper, we propose Debate, Train, Evolve (DTE), a novel ground truth-free training framework that uses multi-agent debate traces to evolve a single language model. We also introduce a new prompting strategy Reflect-Critique-Refine, to improve debate quality by explicitly instructing agents to critique and refine their reasoning. Extensive evaluations on seven reasoning benchmarks with six open-weight models show that our DTE framework achieve substantial improvements, with an average accuracy gain of 8.92% on the challenging GSM-PLUS dataset. Furthermore, we observe strong cross-domain generalization, with an average accuracy gain of 5.8% on all other benchmarks, suggesting that our method captures general reasoning capabilities. Our framework code and trained models are publicly available at https://github.com/ctrl-gaurav/Debate-Train-Evolve