ARTIS: Agentic Risk-Aware Test-Time Scaling via Iterative Simulation

📄 arXiv: 2602.01709v1 📥 PDF

作者: Xingshan Zeng, Lingzhi Wang, Weiwen Liu, Liangyou Li, Yasheng Wang, Lifeng Shang, Xin Jiang, Qun Liu

分类: cs.CL

发布日期: 2026-02-02


💡 一句话要点

提出ARTIS,通过迭代模拟实现Agent在测试时风险感知的计算资源分配,提升Agent可靠性。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: Agent 测试时缩放 风险感知 迭代模拟 环境交互

📋 核心要点

  1. 现有测试时缩放方法在Agent环境中不足,无法有效应对与环境交互带来的风险。
  2. ARTIS通过迭代模拟,在真实执行前进行探索,从而解耦探索与承诺,降低环境风险。
  3. 引入风险感知的工具模拟器,通过针对性数据生成和训练,提升对失败模式的模拟能力。

📝 摘要(中文)

现有的测试时缩放(TTS)技术通过在推理时分配额外的计算资源来提升大型语言模型(LLM)的性能,但它们在Agent环境中仍然不足,因为Agent的行为直接与外部环境交互,其影响可能是不可逆转且代价高昂的。我们提出了ARTIS,即通过迭代模拟实现Agent在测试时风险感知的缩放,该框架通过在真实世界执行之前通过模拟交互进行测试时探索,从而将探索与承诺解耦。这种设计允许扩展推理时计算,以提高行为级别的可靠性和鲁棒性,而不会产生环境风险。我们进一步表明,基于LLM的朴素模拟器难以捕捉罕见但影响巨大的失败模式,从而大大限制了它们在Agent决策中的有效性。为了解决这个限制,我们引入了一个风险感知的工具模拟器,该模拟器通过有针对性的数据生成和重新平衡的训练来强调对失败诱导行为的保真度。在多轮和多步骤Agent基准测试上的实验表明,迭代模拟大大提高了Agent的可靠性,并且风险感知模拟对于在模型和任务中始终如一地实现这些收益至关重要。

🔬 方法详解

问题定义:论文旨在解决Agent在与外部环境交互时,由于行为的不可逆性和潜在风险,现有测试时缩放(TTS)技术无法有效提升Agent可靠性的问题。现有方法未能充分考虑Agent行为可能导致的负面后果,并且难以捕捉罕见但影响巨大的失败模式,导致Agent在实际应用中表现不稳定。

核心思路:论文的核心思路是通过迭代模拟,在真实执行Agent行为之前,先在模拟环境中进行充分的探索和评估。这种方式将探索阶段与最终的承诺阶段解耦,允许Agent在不承担实际风险的情况下,学习和优化其行为策略。通过模拟,Agent可以更好地理解其行为可能产生的后果,并选择更安全、更可靠的行动方案。

技术框架:ARTIS框架包含以下主要模块:1) Agent:负责生成行动方案;2) 环境模拟器:模拟Agent与环境的交互,并预测行动的后果;3) 迭代优化器:根据模拟结果,调整Agent的行动策略,并进行下一轮模拟。整个流程通过迭代进行,直到Agent找到一个足够安全和可靠的行动方案。框架的关键在于环境模拟器的准确性和迭代优化器的效率。

关键创新:论文的关键创新在于提出了“风险感知的工具模拟器”。传统的LLM模拟器难以捕捉罕见但高风险的失败模式,导致Agent在模拟环境中表现良好,但在真实环境中却容易出错。为了解决这个问题,论文通过有针对性的数据生成和重新平衡的训练,使模拟器能够更好地预测Agent行为可能导致的负面后果。这种风险感知能力是ARTIS框架能够有效提升Agent可靠性的关键。

关键设计:风险感知的工具模拟器的关键设计包括:1) 失败案例数据增强:通过主动探索和挖掘,收集Agent在真实环境中容易出错的案例,并将其添加到训练数据中;2) 类别重平衡:对训练数据中的失败案例进行加权,使其在训练过程中得到更多的关注;3) 对抗训练:通过对抗训练,提高模拟器对Agent行为的鲁棒性,使其能够更好地预测Agent在不同环境下的表现。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,ARTIS框架在多轮和多步骤Agent基准测试中显著提高了Agent的可靠性。与传统的测试时缩放方法相比,ARTIS能够更有效地利用计算资源,并在不增加环境风险的情况下,提升Agent的性能。风险感知的工具模拟器对于实现这些收益至关重要,它能够使Agent更好地理解其行为可能产生的后果,并选择更安全、更可靠的行动方案。

🎯 应用场景

ARTIS框架可应用于各种需要Agent与环境交互的场景,例如机器人控制、自动驾驶、智能家居等。通过在模拟环境中进行充分的探索和评估,可以显著提高Agent的可靠性和安全性,降低因Agent行为失误而造成的损失。该研究对于推动Agent技术在实际应用中的普及具有重要意义。

📄 摘要(原文)

Current test-time scaling (TTS) techniques enhance large language model (LLM) performance by allocating additional computation at inference time, yet they remain insufficient for agentic settings, where actions directly interact with external environments and their effects can be irreversible and costly. We propose \emph{\name}, \emph{\underline{A}gentic \underline{R}isk-Aware \underline{T}est-Time Scaling via \underline{I}terative \underline{S}imulation}, a framework that decouples exploration from commitment by enabling test-time exploration through simulated interactions prior to real-world execution. This design allows extending inference-time computation to improve action-level reliability and robustness without incurring environmental risk. We further show that naive LLM-based simulators struggle to capture rare but high-impact failure modes, substantially limiting their effectiveness for agentic decision making. To address this limitation, we introduce a \emph{risk-aware tool simulator} that emphasizes fidelity on failure-inducing actions via targeted data generation and rebalanced training. Experiments on multi-turn and multi-step agentic benchmarks demonstrate that iterative simulation substantially improves agent reliability, and that risk-aware simulation is essential for consistently realizing these gains across models and tasks.