Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search

作者: Maohao Shen, Guangtao Zeng, Zhenting Qi, Zhang-Wei Hong, Zhenfang Chen, Wei Lu, Gregory Wornell, Subhro Das, David Cox, Chuang Gan

分类: cs.CL, cs.AI

发布日期: 2025-02-04 (更新: 2025-06-16)

💡 一句话要点

Satori：通过行动-思考链增强LLM推理能力的自回归搜索强化学习

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 强化学习 自回归搜索 推理能力 行动-思考链

📋 核心要点

现有方法依赖外部LLM验证器指导推理，计算成本高，且未能充分发挥单个LLM的潜力。
Satori提出行动-思考链（COAT）推理，通过自回归搜索，使LLM具备自我反思和探索新策略的能力。
Satori在数学推理基准测试中达到SOTA，并对领域外任务表现出强大的泛化能力，代码数据模型开源。

📝 摘要（中文）

大型语言模型（LLMs）在各个领域都展现出了卓越的推理能力。最近的研究表明，增加测试时的计算量可以增强LLMs的推理能力。这通常涉及在推理时进行大量的采样，并由外部LLM验证器进行指导，从而形成一个双人系统。尽管有外部指导，但该系统的有效性表明，单个LLM有潜力解决复杂的任务。因此，我们提出了一个新的研究问题：我们能否将搜索能力内在化，从而从根本上增强单个LLM的推理能力？这项工作探索了一个正交的方向，专注于对LLM进行后训练，以进行自回归搜索（即，通过自我反思和自我探索新策略来扩展推理过程）。为了实现这一目标，我们提出了行动-思考链（COAT）推理和一个两阶段训练范式：1）一个小规模的格式调整阶段，用于内化COAT推理格式；2）一个大规模的自改进阶段，利用强化学习。我们的方法产生了Satori，一个在开源模型和数据上训练的7B LLM。大量的实证评估表明，Satori在数学推理基准测试中实现了最先进的性能，同时对领域外任务表现出强大的泛化能力。代码、数据和模型已完全开源。

🔬 方法详解

问题定义：论文旨在解决如何提升单个LLM的推理能力，使其在没有外部验证器的情况下，也能有效地解决复杂任务。现有方法依赖于外部LLM验证器进行指导，计算成本高昂，并且没有充分挖掘单个LLM的潜力，使其能够进行自我探索和反思。

核心思路：论文的核心思路是将搜索能力内化到LLM中，使其能够进行自回归搜索，即通过自我反思和自我探索新的策略来扩展推理过程。通过这种方式，LLM可以像人类一样，在解决问题的过程中不断尝试、反思和改进，从而提高推理能力。

技术框架：Satori的训练分为两个阶段：1）小规模格式调整阶段：使用少量数据对LLM进行微调，使其能够理解和生成COAT格式的推理过程。2）大规模自改进阶段：利用强化学习，让LLM通过自我对弈和奖励机制，不断优化其推理策略。整体流程是，给定一个问题，LLM首先生成一系列的“行动-思考”链，然后根据这些链的质量（例如，是否能够解决问题）来调整其生成策略。

关键创新：论文的关键创新在于提出了行动-思考链（COAT）推理，这是一种新的推理格式，它将行动（例如，尝试不同的解题步骤）和思考（例如，对当前步骤的反思和对下一步的规划）交织在一起。这种格式使得LLM能够更好地进行自我探索和反思，从而提高推理能力。与现有方法相比，Satori不需要外部验证器，而是通过自回归搜索来提高推理能力。

关键设计：COAT格式包含行动和思考两个部分，行动是LLM尝试解决问题的步骤，思考是LLM对当前步骤的反思和对下一步的规划。在强化学习阶段，论文使用了一种奖励函数，该函数根据LLM是否能够解决问题来给予奖励。此外，论文还使用了策略梯度算法来优化LLM的生成策略。

🖼️ 关键图片

📊 实验亮点

Satori在数学推理基准测试中取得了最先进的性能，超越了现有的开源LLM。此外，Satori还表现出强大的泛化能力，在领域外任务中也取得了良好的效果。例如，在某些数学推理任务上，Satori的性能比基线模型提高了显著的百分比（具体数据需要在论文中查找）。

🎯 应用场景

Satori的潜在应用领域包括数学解题、代码生成、逻辑推理、规划决策等。通过增强LLM的推理能力，可以使其在这些领域中更好地解决复杂问题，提高自动化水平和效率。未来，Satori可以应用于智能助手、自动化编程、科学研究等领域，具有广阔的应用前景。

📄 摘要（原文）

Large language models (LLMs) have demonstrated remarkable reasoning capabilities across diverse domains. Recent studies have shown that increasing test-time computation enhances LLMs' reasoning capabilities. This typically involves extensive sampling at inference time guided by an external LLM verifier, resulting in a two-player system. Despite external guidance, the effectiveness of this system demonstrates the potential of a single LLM to tackle complex tasks. Thus, we pose a new research problem: Can we internalize the searching capabilities to fundamentally enhance the reasoning abilities of a single LLM? This work explores an orthogonal direction focusing on post-training LLMs for autoregressive searching (i.e., an extended reasoning process with self-reflection and self-exploration of new strategies). To achieve this, we propose the Chain-of-Action-Thought (COAT) reasoning and a two-stage training paradigm: 1) a small-scale format tuning stage to internalize the COAT reasoning format and 2) a large-scale self-improvement stage leveraging reinforcement learning. Our approach results in Satori, a 7B LLM trained on open-source models and data. Extensive empirical evaluations demonstrate that Satori achieves state-of-the-art performance on mathematical reasoning benchmarks while exhibits strong generalization to out-of-domain tasks. Code, data, and models are fully open-sourced.

Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理