CM2: Reinforcement Learning with Checklist Rewards for Multi-Turn and Multi-Step Agentic Tool Use

📄 arXiv: 2602.12268v1 📥 PDF

作者: Zhen Zhang, Kaiqiang Song, Xun Wang, Yebowen Hu, Weixiang Yan, Chenyang Zhao, Henry Peng Zou, Haoyun Deng, Sathish Reddy Indurthi, Shujian Liu, Simin Ma, Xiaoyang Wang, Xin Eric Wang, Song Wang

分类: cs.AI

发布日期: 2026-02-12

🔗 代码/项目: GITHUB


💡 一句话要点

CM2:基于清单奖励的强化学习,用于多轮多步Agentic工具使用

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 强化学习 多轮交互 工具使用 清单奖励 LLM模拟

📋 核心要点

  1. 现有强化学习方法在多轮交互和工具使用场景中面临奖励稀疏和难以验证的问题,限制了其应用。
  2. CM2框架通过引入清单奖励,将复杂任务分解为细粒度的二元标准,并结合LLM模拟环境进行训练。
  3. 实验表明,CM2在多个基准测试中显著优于监督微调方法,并与同等规模的开源模型竞争。

📝 摘要(中文)

本文提出CM2,一个强化学习框架,旨在解决多轮用户交互和调用外部工具的AI Agent任务。CM2用清单奖励取代了可验证的结果奖励,将每个回合的预期行为分解为细粒度的二元标准,并提供显式的证据基础和结构化元数据,从而将开放式判断转化为更稳定的分类式决策。该方法采用稀疏奖励分配但密集评估标准的策略,以平衡稳定性和信息性。训练在一个可扩展的LLM模拟工具环境中进行,避免了大型工具集的繁重工程。实验表明,CM2始终优于监督微调。从一个8B的基础模型开始,并在一个8k示例的RL数据集上进行训练,CM2在tau^-Bench上提高了8个点,在BFCL-V4上提高了10个点,在ToolSandbox上提高了12个点。结果与类似大小的开源基线相匹配甚至超过,包括判断模型。CM2为优化多轮、多步工具使用Agent提供了一种可扩展的方法,而无需依赖可验证的奖励。

🔬 方法详解

问题定义:论文旨在解决AI Agent在多轮交互中使用外部工具完成复杂任务时,强化学习训练中奖励函数难以设计和验证的问题。现有方法依赖于可验证的结果奖励,但在许多实际场景中,目标是开放式的,难以定义明确的奖励信号。此外,构建和维护可执行的工具环境成本高昂,限制了模型的可扩展性。

核心思路:CM2的核心思路是用清单奖励(Checklist Rewards)取代传统的可验证结果奖励。清单奖励将每个回合的预期行为分解为一系列细粒度的二元标准,每个标准对应一个可判断的条件。通过提供显式的证据基础和结构化元数据,将开放式的判断问题转化为更稳定的分类问题。这种方法允许更密集和更细粒度的反馈,从而加速强化学习的收敛。

技术框架:CM2的整体框架包括以下几个主要组成部分:1) LLM模拟的工具环境,用于生成训练数据;2) Agent模型,负责与环境交互并执行工具调用;3) 清单奖励模块,负责根据Agent的行为和环境状态生成奖励信号。训练过程采用强化学习算法,Agent通过与环境交互并根据清单奖励进行学习,不断优化其策略。

关键创新:CM2的关键创新在于引入了清单奖励机制,将复杂的任务分解为一系列可验证的子任务,从而简化了奖励函数的设计。与传统的稀疏奖励方法相比,清单奖励提供了更密集和更细粒度的反馈,有助于Agent更快地学习。此外,CM2还利用LLM模拟环境来降低构建和维护工具环境的成本,从而提高了模型的可扩展性。

关键设计:CM2的关键设计包括:1) 清单奖励的粒度控制,需要在稳定性和信息性之间进行权衡;2) 稀疏奖励分配策略,避免过度奖励导致Agent过度关注某些子任务;3) LLM模拟环境的真实性,需要保证模拟环境能够反映真实世界的复杂性;4) 损失函数的设计,需要平衡Agent的探索和利用。

📊 实验亮点

CM2在多个基准测试中取得了显著的性能提升。在tau^-Bench上,CM2比SFT模型提高了8个点;在BFCL-V4上,提高了10个点;在ToolSandbox上,提高了12个点。这些结果表明,CM2能够有效地利用清单奖励进行强化学习,并显著优于传统的监督微调方法。此外,CM2的性能与同等规模的开源模型相匹配甚至超过,证明了其在多轮交互和工具使用场景中的有效性。

🎯 应用场景

CM2框架可应用于各种需要AI Agent进行多轮交互和工具使用的场景,例如智能客服、自动化办公、智能家居等。通过提供更稳定和可扩展的强化学习训练方法,CM2可以帮助AI Agent更好地理解用户意图,并利用外部工具完成复杂任务,从而提高工作效率和用户满意度。未来,CM2还可以扩展到更复杂的任务和环境,例如机器人控制和自动驾驶。

📄 摘要(原文)

AI agents are increasingly used to solve real-world tasks by reasoning over multi-turn user interactions and invoking external tools. However, applying reinforcement learning to such settings remains difficult: realistic objectives often lack verifiable rewards and instead emphasize open-ended behaviors; moreover, RL for multi-turn, multi-step agentic tool use is still underexplored; and building and maintaining executable tool environments is costly, limiting scale and coverage. We propose CM2, an RL framework that replaces verifiable outcome rewards with checklist rewards. CM2 decomposes each turn's intended behavior into fine-grained binary criteria with explicit evidence grounding and structured metadata, turning open-ended judging into more stable classification-style decisions. To balance stability and informativeness, our method adopts a strategy of sparse reward assignment but dense evaluation criteria. Training is performed in a scalable LLM-simulated tool environment, avoiding heavy engineering for large tool sets. Experiments show that CM2 consistently improves over supervised fine-tuning. Starting from an 8B Base model and training on an 8k-example RL dataset, CM2 improves over the SFT counterpart by 8 points on tau^-Bench, by 10 points on BFCL-V4, and by 12 points on ToolSandbox. The results match or even outperform similarly sized open-source baselines, including the judging model. CM2 thus provides a scalable recipe for optimizing multi-turn, multi-step tool-using agents without relying on verifiable rewards. Code provided by the open-source community: https://github.com/namezhenzhang/CM2-RLCR-Tool-Agent.