R2IF: Aligning Reasoning with Decisions via Composite Rewards for Interpretable LLM Function Calling

作者: Aijia Cheng, Kailong Wang, Ling Shi, Yongxin Zhao

分类: cs.LG

发布日期: 2026-04-22

💡 一句话要点

R2IF：通过复合奖励对齐推理与决策，实现可解释的LLM函数调用

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 函数调用 大型语言模型 强化学习 可解释性 思维链 复合奖励 推理对齐

📋 核心要点

现有基于强化学习的函数调用方法，其推理过程与最终的工具调用决策之间存在不一致性，导致性能瓶颈。
R2IF框架通过引入复合奖励机制，将格式正确性、思维链有效性和规范价值纳入考量，从而对齐推理与决策。
实验结果表明，R2IF在函数调用准确率和可解释性方面均优于现有方法，为LLM的可靠部署提供了保障。

📝 摘要（中文）

函数调用使大型语言模型（LLMs）能够与外部工具交互，但现有的基于强化学习（RL）的方法存在推理过程和工具调用决策不一致的问题。我们提出了R2IF，一个推理感知的RL框架，用于可解释的函数调用，它采用了一种复合奖励，集成了格式/正确性约束、思维链有效性奖励（CER）和规范-修改-价值（SMV）奖励，并通过GRPO进行优化。在BFCL/ACEBench上的实验表明，R2IF优于基线，最高提升达34.62%（Llama3.2-3B在BFCL上），并且具有积极的平均CoT有效性（Llama3.2-3B为0.05），从而提高了函数调用准确性和可解释性，以实现可靠的工具增强型LLM部署。

🔬 方法详解

问题定义：现有基于强化学习的函数调用方法，其推理过程与最终的工具调用决策之间存在脱节。这意味着模型可能产生合理的推理链，但最终选择了错误的工具或使用了错误的参数。这种不一致性降低了函数调用的准确性和可靠性，同时也使得模型的行为难以解释和调试。

核心思路：R2IF的核心思路是通过强化学习，训练LLM生成与最终决策对齐的推理过程。具体来说，R2IF设计了一个复合奖励函数，该函数不仅考虑了函数调用的正确性，还考虑了推理过程的有效性和规范性。通过优化这个复合奖励函数，R2IF鼓励LLM生成更清晰、更有效的推理链，从而提高函数调用的准确性和可解释性。

技术框架：R2IF框架主要包含以下几个模块：1) LLM：负责生成推理过程和函数调用；2) 环境：模拟外部工具的交互，并提供反馈；3) 奖励函数：评估LLM生成的推理过程和函数调用，并提供奖励信号；4) 强化学习算法：使用GRPO算法优化LLM的策略。整体流程是，LLM根据当前状态生成推理过程和函数调用，环境执行函数调用并返回结果，奖励函数根据结果计算奖励，强化学习算法根据奖励更新LLM的策略。

关键创新：R2IF的关键创新在于其复合奖励函数的设计。该奖励函数集成了三个关键要素：格式/正确性约束、思维链有效性奖励（CER）和规范-修改-价值（SMV）奖励。格式/正确性约束确保函数调用的格式正确且参数有效。CER奖励鼓励LLM生成有效的思维链，即能够有效指导函数调用的推理过程。SMV奖励则鼓励LLM遵循规范的推理模式，并根据环境反馈进行修改，最终产生有价值的函数调用。

关键设计：R2IF的复合奖励函数是其关键设计之一。具体来说，格式/正确性约束可以通过简单的规则或验证器来实现。CER奖励可以通过计算推理链与正确答案之间的相似度来估计。SMV奖励则需要设计一个规范的推理模式，并根据LLM的推理过程与该模式的匹配程度来计算。此外，R2IF还使用了GRPO算法进行优化，该算法能够有效地处理复杂的奖励函数和高维状态空间。

🖼️ 关键图片

📊 实验亮点

实验结果表明，R2IF在BFCL和ACEBench数据集上均取得了显著的性能提升。例如，在BFCL数据集上，使用Llama3.2-3B模型时，R2IF的性能比基线方法提高了34.62%。此外，R2IF还具有积极的平均CoT有效性（Llama3.2-3B为0.05），表明其能够生成有效的思维链，从而提高函数调用的可解释性。

🎯 应用场景

R2IF框架可应用于各种需要LLM进行函数调用的场景，例如智能助手、自动化流程、数据分析等。通过提高函数调用的准确性和可解释性，R2IF可以帮助用户更好地理解和信任LLM的行为，从而促进LLM在实际应用中的广泛部署。未来，R2IF还可以扩展到更复杂的任务和环境，例如多步推理、多工具协同等。

📄 摘要（原文）

Function calling empowers large language models (LLMs) to interface with external tools, yet existing RL-based approaches suffer from misalignment between reasoning processes and tool-call decisions. We propose R2IF, a reasoning-aware RL framework for interpretable function calling, adopting a composite reward integrating format/correctness constraints, Chain-of-Thought Effectiveness Reward (CER), and Specification-Modification-Value (SMV) reward, optimized via GRPO. Experiments on BFCL/ACEBench show R2IF outperforms baselines by up to 34.62% (Llama3.2-3B on BFCL) with positive Average CoT Effectiveness (0.05 for Llama3.2-3B), enhancing both function-calling accuracy and interpretability for reliable tool-augmented LLM deployment.

R2IF: Aligning Reasoning with Decisions via Composite Rewards for Interpretable LLM Function Calling

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理