Agentic Critical Training

📄 arXiv: 2603.08706v1 📥 PDF

作者: Weize Liu, Minghui Liu, Sy-Tuyen Ho, Souradip Chakraborty, Xiyao Wang, Furong Huang

分类: cs.AI, cs.CL, cs.LG

发布日期: 2026-03-09

备注: Project page: https://attention-is-all-i-need.github.io/ACT/


💡 一句话要点

提出Agentic Critical Training,提升LLM智能体自主推理和行动质量评估能力

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 智能体 强化学习 自主推理 行动质量评估 自我反思 泛化能力

📋 核心要点

  1. 现有方法主要采用模仿学习训练LLM智能体,缺乏对行动质量的评估和自主推理能力。
  2. ACT是一种强化学习范式,通过奖励模型对行动优劣的判断,鼓励其自主发展推理能力。
  3. 实验表明,ACT在多个智能体基准测试中显著提升性能,并具备良好的泛化能力。

📝 摘要(中文)

本文提出Agentic Critical Training (ACT),一种强化学习范式,旨在训练大型语言模型(LLM)智能体识别多个备选项中更优的行动。与模仿学习仅学习“做什么”不同,ACT通过奖励模型判断的正确性,驱动模型自主发展对行动质量的推理能力,产生真正的自我反思而非模仿。在三个具有挑战性的智能体基准测试中,ACT与不同的后训练方法结合使用时,始终能提高智能体的性能。相比模仿学习平均提升5.07个点,相比强化学习平均提升4.62个点。与通过知识蒸馏注入反思能力的方法相比,ACT也表现出明显的优势,平均提升2.42个点。此外,ACT在智能体基准测试中实现了强大的分布外泛化,并在通用推理基准测试中提高了性能,而无需任何特定于推理的训练数据,突出了该方法的价值。这些结果表明,ACT是开发更具反思性和能力的LLM智能体的一个有希望的方向。

🔬 方法详解

问题定义:现有的大型语言模型智能体训练方法,尤其是模仿学习,主要关注学习“做什么”,而忽略了“为什么这样做”。智能体无法区分好的行动和次优行动,缺乏对行动质量的内在理解和自主推理能力。现有方法试图通过专家知识蒸馏来注入反思能力,但本质上仍然是模仿学习,模型模仿预先构建的反思文本,而不是自主推理。

核心思路:ACT的核心思路是通过强化学习,训练智能体自主判断多个备选行动的优劣。通过奖励模型正确判断行动质量的行为,促使模型学习行动背后的原因,从而发展出真正的自我反思能力,而非简单地模仿反思文本。

技术框架:ACT的整体框架包括以下几个主要阶段:1) 生成多个备选行动;2) 模型对这些行动进行评估和排序;3) 根据模型判断的正确性给予奖励;4) 使用强化学习算法更新模型参数。该框架的核心在于奖励机制的设计,它直接驱动模型学习行动质量的推理能力。

关键创新:ACT最重要的创新在于其训练范式,它将智能体的训练从模仿学习转变为强化学习,并专注于培养智能体自主判断行动质量的能力。与现有方法相比,ACT不是让模型模仿预先构建的反思文本,而是通过奖励机制引导模型自主发展推理能力,从而产生真正的自我反思。

关键设计:ACT的关键设计包括:1) 行动生成策略:如何生成具有多样性和代表性的备选行动;2) 奖励函数的设计:如何准确地评估模型判断的正确性,并给予相应的奖励;3) 强化学习算法的选择:选择合适的强化学习算法来优化模型参数。具体的参数设置、损失函数和网络结构等细节可能因不同的应用场景而有所不同,但核心思想是保持一致的。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

ACT在三个具有挑战性的智能体基准测试中取得了显著的性能提升。相比模仿学习,平均提升5.07个点;相比强化学习,平均提升4.62个点;相比知识蒸馏方法,平均提升2.42个点。更重要的是,ACT展现了强大的分布外泛化能力,并在通用推理基准测试中提高了性能,而无需任何特定于推理的训练数据,证明了其学习到的推理能力具有通用性。

🎯 应用场景

ACT方法具有广泛的应用前景,可用于提升各种LLM智能体的性能,例如对话系统、游戏AI、机器人控制等。通过提高智能体的自主推理和行动质量评估能力,可以使其在复杂环境中做出更明智的决策,并更好地完成各种任务。此外,ACT还可以应用于教育领域,帮助学生培养批判性思维和问题解决能力。

📄 摘要(原文)

Training large language models (LLMs) as autonomous agents often begins with imitation learning, but it only teaches agents what to do without understanding why: agents never contrast successful actions against suboptimal alternatives and thus lack awareness of action quality. Recent approaches attempt to address this by introducing self-reflection supervision derived from contrasts between expert and alternative actions. However, the training paradigm fundamentally remains imitation learning: the model imitates pre-constructed reflection text rather than learning to reason autonomously. We propose Agentic Critical Training (ACT), a reinforcement learning paradigm that trains agents to identify the better action among alternatives. By rewarding whether the model's judgment is correct, ACT drives the model to autonomously develop reasoning about action quality, producing genuine self-reflection rather than imitating it. Across three challenging agent benchmarks, ACT consistently improves agent performance when combined with different post-training methods. It achieves an average improvement of 5.07 points over imitation learning and 4.62 points over reinforcement learning. Compared to approaches that inject reflection capability through knowledge distillation, ACT also demonstrates clear advantages, yielding an average improvement of 2.42 points. Moreover, ACT enables strong out-of-distribution generalization on agentic benchmarks and improves performance on general reasoning benchmarks without any reasoning-specific training data, highlighting the value of our method. These results suggest that ACT is a promising path toward developing more reflective and capable LLM agents.