Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search
作者: Maohao Shen, Guangtao Zeng, Zhenting Qi, Zhang-Wei Hong, Zhenfang Chen, Wei Lu, Gregory Wornell, Subhro Das, David Cox, Chuang Gan
分类: cs.CL, cs.AI
发布日期: 2025-02-04 (更新: 2025-06-16)
💡 一句话要点
Satori:通过行动-思考链增强LLM推理能力的自回归搜索强化学习
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 强化学习 自回归搜索 推理能力 行动-思考链
📋 核心要点
- 现有方法依赖外部LLM验证器指导推理,计算成本高,且未能充分发挥单个LLM的潜力。
- Satori提出行动-思考链(COAT)推理,通过自回归搜索,使LLM具备自我反思和探索新策略的能力。
- Satori在数学推理基准测试中达到SOTA,并对领域外任务表现出强大的泛化能力,代码数据模型开源。
📝 摘要(中文)
大型语言模型(LLMs)在各个领域都展现出了卓越的推理能力。最近的研究表明,增加测试时的计算量可以增强LLMs的推理能力。这通常涉及在推理时进行大量的采样,并由外部LLM验证器进行指导,从而形成一个双人系统。尽管有外部指导,但该系统的有效性表明,单个LLM有潜力解决复杂的任务。因此,我们提出了一个新的研究问题:我们能否将搜索能力内在化,从而从根本上增强单个LLM的推理能力?这项工作探索了一个正交的方向,专注于对LLM进行后训练,以进行自回归搜索(即,通过自我反思和自我探索新策略来扩展推理过程)。为了实现这一目标,我们提出了行动-思考链(COAT)推理和一个两阶段训练范式:1)一个小规模的格式调整阶段,用于内化COAT推理格式;2)一个大规模的自改进阶段,利用强化学习。我们的方法产生了Satori,一个在开源模型和数据上训练的7B LLM。大量的实证评估表明,Satori在数学推理基准测试中实现了最先进的性能,同时对领域外任务表现出强大的泛化能力。代码、数据和模型已完全开源。
🔬 方法详解
问题定义:论文旨在解决如何提升单个LLM的推理能力,使其在没有外部验证器的情况下,也能有效地解决复杂任务。现有方法依赖于外部LLM验证器进行指导,计算成本高昂,并且没有充分挖掘单个LLM的潜力,使其能够进行自我探索和反思。
核心思路:论文的核心思路是将搜索能力内化到LLM中,使其能够进行自回归搜索,即通过自我反思和自我探索新的策略来扩展推理过程。通过这种方式,LLM可以像人类一样,在解决问题的过程中不断尝试、反思和改进,从而提高推理能力。
技术框架:Satori的训练分为两个阶段:1)小规模格式调整阶段:使用少量数据对LLM进行微调,使其能够理解和生成COAT格式的推理过程。2)大规模自改进阶段:利用强化学习,让LLM通过自我对弈和奖励机制,不断优化其推理策略。整体流程是,给定一个问题,LLM首先生成一系列的“行动-思考”链,然后根据这些链的质量(例如,是否能够解决问题)来调整其生成策略。
关键创新:论文的关键创新在于提出了行动-思考链(COAT)推理,这是一种新的推理格式,它将行动(例如,尝试不同的解题步骤)和思考(例如,对当前步骤的反思和对下一步的规划)交织在一起。这种格式使得LLM能够更好地进行自我探索和反思,从而提高推理能力。与现有方法相比,Satori不需要外部验证器,而是通过自回归搜索来提高推理能力。
关键设计:COAT格式包含行动和思考两个部分,行动是LLM尝试解决问题的步骤,思考是LLM对当前步骤的反思和对下一步的规划。在强化学习阶段,论文使用了一种奖励函数,该函数根据LLM是否能够解决问题来给予奖励。此外,论文还使用了策略梯度算法来优化LLM的生成策略。
🖼️ 关键图片
📊 实验亮点
Satori在数学推理基准测试中取得了最先进的性能,超越了现有的开源LLM。此外,Satori还表现出强大的泛化能力,在领域外任务中也取得了良好的效果。例如,在某些数学推理任务上,Satori的性能比基线模型提高了显著的百分比(具体数据需要在论文中查找)。
🎯 应用场景
Satori的潜在应用领域包括数学解题、代码生成、逻辑推理、规划决策等。通过增强LLM的推理能力,可以使其在这些领域中更好地解决复杂问题,提高自动化水平和效率。未来,Satori可以应用于智能助手、自动化编程、科学研究等领域,具有广阔的应用前景。
📄 摘要(原文)
Large language models (LLMs) have demonstrated remarkable reasoning capabilities across diverse domains. Recent studies have shown that increasing test-time computation enhances LLMs' reasoning capabilities. This typically involves extensive sampling at inference time guided by an external LLM verifier, resulting in a two-player system. Despite external guidance, the effectiveness of this system demonstrates the potential of a single LLM to tackle complex tasks. Thus, we pose a new research problem: Can we internalize the searching capabilities to fundamentally enhance the reasoning abilities of a single LLM? This work explores an orthogonal direction focusing on post-training LLMs for autoregressive searching (i.e., an extended reasoning process with self-reflection and self-exploration of new strategies). To achieve this, we propose the Chain-of-Action-Thought (COAT) reasoning and a two-stage training paradigm: 1) a small-scale format tuning stage to internalize the COAT reasoning format and 2) a large-scale self-improvement stage leveraging reinforcement learning. Our approach results in Satori, a 7B LLM trained on open-source models and data. Extensive empirical evaluations demonstrate that Satori achieves state-of-the-art performance on mathematical reasoning benchmarks while exhibits strong generalization to out-of-domain tasks. Code, data, and models are fully open-sourced.