When Simulation Lies: A Sim-to-Real Benchmark and Domain-Randomized RL Recipe for Tool-Use Agents

📄 arXiv: 2605.11928v1 📥 PDF

作者: Xiaolin Zhou, Aojie Yuan, Zheng Luo, Zipeng Ling, Xixiao Pan, Yicheng Gao, Haiyue Zhang, Jiate Li, Shuli Jiang, Prince Zizhuang Wang, Zixuan Zhu, Jinbo Liu, Ryan A. Rossi, Hua Wei, Xiyang Hu

分类: cs.AI

发布日期: 2026-05-12

备注: Dataset, code, and benchmark leaderboard are available at https://github.com/WillChow66/robustbench-tc-release.git and https://huggingface.co/spaces/willchow66/robustbench-tc-leaderboard


💡 一句话要点

提出RobustBench-TC基准与ToolRL-DR方法,提升工具使用Agent在噪声环境下的鲁棒性

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 工具使用Agent 鲁棒性 领域随机化 强化学习 模拟到真实 基准测试 语言模型

📋 核心要点

  1. 现有工具使用Agent在干净输入和可靠API假设下评估,忽略了真实部署中的噪声和不确定性。
  2. 提出ToolRL-DR,通过领域随机化强化学习,在扰动增强的轨迹上训练Agent,提升其鲁棒性。
  3. 实验表明,ToolRL-DR在保持较高准确率的同时,显著缩小了与闭源模型的差距,并对未见过的故障具有泛化能力。

📝 摘要(中文)

本文研究了工具使用语言Agent在真实部署环境中面临的鲁棒性问题,这些问题源于输入噪声、工具注册表不明确和API不可靠等因素,可视为工具使用部分可观察马尔可夫决策过程(POMDP)中的模拟到真实差距。为此,作者提出了RobustBench-TC基准,包含22种扰动类型,这些扰动根据POMDP的四个组成部分进行组织,并基于GitHub问题或工具调用失败进行验证。实验表明,现有模型在奖励相关和转移扰动下的性能下降显著。作者进一步提出了ToolRL-DR,一种领域随机化强化学习方法,用于训练具有扰动增强轨迹的工具使用Agent。实验结果表明,ToolRL-DR在保持较高清洁准确率的同时,显著缩小了与闭源模型的差距,并提升了对未见过的运行时故障的泛化能力。

🔬 方法详解

问题定义:现有工具使用Agent在模拟环境中表现良好,但在真实部署中,由于用户输入错误、工具名称歧义、API故障等问题,性能会显著下降。这些问题可以被视为模拟到真实的差距,即在部分可观察马尔可夫决策过程(POMDP)中,观察、动作空间、奖励相关元数据或转移动态受到噪声干扰。现有方法缺乏对这些噪声的鲁棒性。

核心思路:本文的核心思路是通过领域随机化强化学习(DR RL)来提升Agent的鲁棒性。具体来说,通过在训练过程中引入各种扰动,使Agent能够适应真实部署环境中可能出现的各种噪声和不确定性。这种方法旨在让Agent学习到更通用的策略,从而在面对未知的扰动时也能保持良好的性能。

技术框架:整体框架包括两个主要部分:RobustBench-TC基准和ToolRL-DR训练方法。RobustBench-TC基准用于评估Agent在各种扰动下的性能,它包含22种扰动类型,这些扰动根据POMDP的四个组成部分(观察、动作空间、奖励相关元数据和转移动态)进行组织。ToolRL-DR是一种领域随机化强化学习方法,它在扰动增强的轨迹上训练Agent。训练过程包括环境交互、奖励计算和策略更新等步骤。

关键创新:最重要的技术创新点是ToolRL-DR方法,它通过领域随机化强化学习,有效地提升了Agent在噪声环境下的鲁棒性。与传统的监督学习方法相比,ToolRL-DR能够更好地适应真实部署环境中的各种不确定性。此外,RobustBench-TC基准的提出也为评估工具使用Agent的鲁棒性提供了一个标准化的平台。

关键设计:ToolRL-DR的关键设计包括:1) 扰动增强:在训练过程中,对POMDP的三个静态可编码组件(观察、动作空间和奖励相关元数据)进行扰动。2) 强化学习:使用强化学习算法(具体算法未明确说明)训练Agent,使其能够最大化累积奖励。3) 奖励函数:奖励函数的设计需要考虑工具使用的正确性和效率。4) 网络结构:使用一个3B参数的backbone模型(具体模型未明确说明)。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,现有模型在奖励相关和转移扰动下的准确率下降约40%和30%。ToolRL-DR-Full在保持约四分之三的清洁准确率的同时,达到了与开源14B函数调用基线相当的聚合扰动准确率,并显著缩小了与闭源模型o4-mini的差距。值得注意的是,ToolRL-DR在未见过转移扰动的情况下,仍然缩小了约27%的转移差距,表明在对抗性静态工具使用输入上进行强化学习可以诱导更持久的重试策略,从而迁移到未见过的运行时故障。

🎯 应用场景

该研究成果可应用于各种需要工具使用的语言Agent,例如智能助手、自动化客服、代码生成等。通过提升Agent的鲁棒性,可以使其在真实部署环境中更加可靠和高效地工作,从而提高用户体验和降低维护成本。未来,该研究可以扩展到更复杂的工具使用场景,并探索更有效的领域随机化方法。

📄 摘要(原文)

Tool-use language agents are evaluated on benchmarks that assume clean inputs, unambiguous tool registries, and reliable APIs. Real deployments violate all these assumptions: user typos propagate into hallucinated tool names, a misconfigured request timeout can stall an agent indefinitely, and duplicate tool names across servers can freeze an SDK. We study these failures as a sim-to-real gap in the tool-use partially observable Markov decision process (POMDP), where deployment noise enters through the observation, action space, reward-relevant metadata, or transition dynamics. We introduce RobustBench-TC, a benchmark with 22 perturbation types organized by these four POMDP components, each grounded in a verified GitHub issue or documented tool-calling failure. Across 21 models from 1.5B to 32B parameters (including the closed-source o4-mini), the robustness profile is sharply uneven: observation perturbations reduce accuracy by less than 5%, while reward-relevant and transition perturbations reduce accuracy by roughly 40% and 30%, respectively; scale alone does not close these gaps. We then propose ToolRL-DR, a domain-randomization reinforcement learning (RL) recipe that trains a tool-use agent on perturbation-augmented trajectories spanning the three statically encodable POMDP components. On a 3B backbone, ToolRL-DR-Full retains roughly three-quarters of clean accuracy and reaches an aggregate perturbed accuracy comparable to open-source 14B function-calling baselines while substantially narrowing the gap to o4-mini. It closes approximately 27% of the Transition gap despite never seeing transition perturbations in training, suggesting that RL on adversarial static tool-use inputs induces a more persistent retry policy that transfers to unseen runtime failures. The dataset, code and benchmark leaderboard are publicly available.