R2IF: Aligning Reasoning with Decisions via Composite Rewards for Interpretable LLM Function Calling
作者: Aijia Cheng, Kailong Wang, Ling Shi, Yongxin Zhao
分类: cs.LG
发布日期: 2026-04-22
💡 一句话要点
R2IF:通过复合奖励对齐推理与决策,实现可解释的LLM函数调用
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 函数调用 大型语言模型 强化学习 可解释性 思维链 复合奖励 推理对齐
📋 核心要点
- 现有基于强化学习的函数调用方法,其推理过程与最终的工具调用决策之间存在不一致性,导致性能瓶颈。
- R2IF框架通过引入复合奖励机制,将格式正确性、思维链有效性和规范价值纳入考量,从而对齐推理与决策。
- 实验结果表明,R2IF在函数调用准确率和可解释性方面均优于现有方法,为LLM的可靠部署提供了保障。
📝 摘要(中文)
函数调用使大型语言模型(LLMs)能够与外部工具交互,但现有的基于强化学习(RL)的方法存在推理过程和工具调用决策不一致的问题。我们提出了R2IF,一个推理感知的RL框架,用于可解释的函数调用,它采用了一种复合奖励,集成了格式/正确性约束、思维链有效性奖励(CER)和规范-修改-价值(SMV)奖励,并通过GRPO进行优化。在BFCL/ACEBench上的实验表明,R2IF优于基线,最高提升达34.62%(Llama3.2-3B在BFCL上),并且具有积极的平均CoT有效性(Llama3.2-3B为0.05),从而提高了函数调用准确性和可解释性,以实现可靠的工具增强型LLM部署。
🔬 方法详解
问题定义:现有基于强化学习的函数调用方法,其推理过程与最终的工具调用决策之间存在脱节。这意味着模型可能产生合理的推理链,但最终选择了错误的工具或使用了错误的参数。这种不一致性降低了函数调用的准确性和可靠性,同时也使得模型的行为难以解释和调试。
核心思路:R2IF的核心思路是通过强化学习,训练LLM生成与最终决策对齐的推理过程。具体来说,R2IF设计了一个复合奖励函数,该函数不仅考虑了函数调用的正确性,还考虑了推理过程的有效性和规范性。通过优化这个复合奖励函数,R2IF鼓励LLM生成更清晰、更有效的推理链,从而提高函数调用的准确性和可解释性。
技术框架:R2IF框架主要包含以下几个模块:1) LLM:负责生成推理过程和函数调用;2) 环境:模拟外部工具的交互,并提供反馈;3) 奖励函数:评估LLM生成的推理过程和函数调用,并提供奖励信号;4) 强化学习算法:使用GRPO算法优化LLM的策略。整体流程是,LLM根据当前状态生成推理过程和函数调用,环境执行函数调用并返回结果,奖励函数根据结果计算奖励,强化学习算法根据奖励更新LLM的策略。
关键创新:R2IF的关键创新在于其复合奖励函数的设计。该奖励函数集成了三个关键要素:格式/正确性约束、思维链有效性奖励(CER)和规范-修改-价值(SMV)奖励。格式/正确性约束确保函数调用的格式正确且参数有效。CER奖励鼓励LLM生成有效的思维链,即能够有效指导函数调用的推理过程。SMV奖励则鼓励LLM遵循规范的推理模式,并根据环境反馈进行修改,最终产生有价值的函数调用。
关键设计:R2IF的复合奖励函数是其关键设计之一。具体来说,格式/正确性约束可以通过简单的规则或验证器来实现。CER奖励可以通过计算推理链与正确答案之间的相似度来估计。SMV奖励则需要设计一个规范的推理模式,并根据LLM的推理过程与该模式的匹配程度来计算。此外,R2IF还使用了GRPO算法进行优化,该算法能够有效地处理复杂的奖励函数和高维状态空间。
🖼️ 关键图片
📊 实验亮点
实验结果表明,R2IF在BFCL和ACEBench数据集上均取得了显著的性能提升。例如,在BFCL数据集上,使用Llama3.2-3B模型时,R2IF的性能比基线方法提高了34.62%。此外,R2IF还具有积极的平均CoT有效性(Llama3.2-3B为0.05),表明其能够生成有效的思维链,从而提高函数调用的可解释性。
🎯 应用场景
R2IF框架可应用于各种需要LLM进行函数调用的场景,例如智能助手、自动化流程、数据分析等。通过提高函数调用的准确性和可解释性,R2IF可以帮助用户更好地理解和信任LLM的行为,从而促进LLM在实际应用中的广泛部署。未来,R2IF还可以扩展到更复杂的任务和环境,例如多步推理、多工具协同等。
📄 摘要(原文)
Function calling empowers large language models (LLMs) to interface with external tools, yet existing RL-based approaches suffer from misalignment between reasoning processes and tool-call decisions. We propose R2IF, a reasoning-aware RL framework for interpretable function calling, adopting a composite reward integrating format/correctness constraints, Chain-of-Thought Effectiveness Reward (CER), and Specification-Modification-Value (SMV) reward, optimized via GRPO. Experiments on BFCL/ACEBench show R2IF outperforms baselines by up to 34.62% (Llama3.2-3B on BFCL) with positive Average CoT Effectiveness (0.05 for Llama3.2-3B), enhancing both function-calling accuracy and interpretability for reliable tool-augmented LLM deployment.