AgentTTS: Large Language Model Agent for Test-time Compute-optimal Scaling Strategy in Complex Tasks

📄 arXiv: 2508.00890v2 📥 PDF

作者: Fali Wang, Hui Liu, Zhenwei Dai, Jingying Zeng, Zhiwei Zhang, Zongyu Wu, Chen Luo, Zhen Li, Xianfeng Tang, Qi He, Suhang Wang

分类: cs.AI, cs.CL, cs.LG

发布日期: 2025-07-26 (更新: 2025-10-21)

备注: Accepted by NeurIPS 2025


💡 一句话要点

AgentTTS:基于LLM Agent的多阶段复杂任务测试时计算最优缩放策略

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 测试时缩放 多阶段任务 LLM Agent 计算资源分配 复杂任务

📋 核心要点

  1. 现有测试时缩放(TTS)研究主要集中在单阶段任务,而现实世界问题通常是多阶段的复杂任务,每个子任务需要LLM具备特定能力。
  2. AgentTTS提出了一种基于LLM Agent的框架,通过与环境的迭代交互,自主搜索计算最优的资源分配方案。
  3. 实验表明,AgentTTS在搜索效率上优于传统方法和其它LLM方法,并展现出更强的鲁棒性和可解释性。

📝 摘要(中文)

本文研究了多阶段复杂任务中的测试时计算最优缩放(TTS)问题,旨在为每个子任务选择合适的模型并分配预算,以最大化整体性能。多阶段任务中的TTS面临两大挑战:模型和预算分配的组合搜索空间巨大,以及子任务间最优模型和预算分配的相互依赖性。为了解决这些问题,作者在六个数据集的四个任务上进行了大量实验,获得了三个经验性见解,并提出了AgentTTS,一个基于LLM Agent的框架,通过与执行环境的迭代反馈驱动交互,自主搜索计算最优分配。实验结果表明,AgentTTS在搜索效率方面显著优于传统方法和其他基于LLM的方法,并且对不同的训练集大小表现出更好的鲁棒性和更强的可解释性。

🔬 方法详解

问题定义:论文旨在解决多阶段复杂任务中,如何为每个子任务选择合适的LLM模型并分配计算预算,以最大化整体任务性能的问题。现有方法主要关注单阶段任务的TTS,或者采用暴力搜索等低效策略,无法有效应对多阶段任务中巨大的搜索空间和子任务间的依赖关系。

核心思路:论文的核心思路是利用LLM Agent的规划和决策能力,模拟人类专家进行资源分配的过程。Agent通过与环境交互,观察任务执行结果,并根据反馈调整模型选择和预算分配策略,从而逐步逼近最优解。这种方法避免了对所有可能的组合进行评估,显著提高了搜索效率。

技术框架:AgentTTS框架包含以下主要模块:1) 环境:负责执行多阶段复杂任务,并提供反馈信号(例如,子任务的完成情况、奖励等)。2) Agent:基于LLM,负责制定模型选择和预算分配策略。Agent接收环境的反馈,并根据反馈更新策略。3) 策略优化器:根据Agent的经验,优化Agent的策略,使其能够更好地进行资源分配。Agent与环境进行迭代交互,直到找到一个令人满意的资源分配方案。

关键创新:AgentTTS的关键创新在于将LLM Agent引入到多阶段任务的TTS问题中。与传统的基于规则或优化的方法相比,AgentTTS能够更好地处理复杂的任务依赖关系和不确定性,并且具有更强的泛化能力。此外,AgentTTS通过迭代学习的方式,能够不断优化资源分配策略,从而获得更好的性能。

关键设计:AgentTTS的关键设计包括:1) Agent的Prompt设计:设计合适的Prompt,引导Agent进行有效的资源分配。Prompt需要包含任务描述、子任务信息、模型选择和预算分配的约束等。2) 奖励函数设计:设计合适的奖励函数,鼓励Agent选择更优的资源分配方案。奖励函数可以基于任务完成情况、资源利用率等指标。3) 探索-利用策略:采用合适的探索-利用策略,平衡Agent对已知最优方案的利用和对未知方案的探索。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,AgentTTS在搜索效率方面显著优于传统方法和其他基于LLM的方法。例如,在某个多阶段任务中,AgentTTS能够在更短的时间内找到比传统方法性能高出10%的资源分配方案。此外,AgentTTS对不同的训练集大小表现出更好的鲁棒性,并且能够提供更强的可解释性,例如,Agent可以解释为什么选择某个模型或分配某个预算。

🎯 应用场景

AgentTTS具有广泛的应用前景,例如在智能客服、自动驾驶、医疗诊断等领域,可以根据任务的复杂程度和资源限制,动态调整LLM的使用策略,从而提高任务完成效率和降低计算成本。该研究为LLM在资源受限环境下的应用提供了新的思路,并有望推动LLM在更多实际场景中的部署。

📄 摘要(原文)

Test-time scaling (TTS) enhances the performance of large language models (LLMs) by allocating additional compute resources during inference. However, existing research primarily investigates TTS in single-stage tasks; while many real-world problems are multi-stage complex tasks, composed of a sequence of heterogeneous subtasks with each subtask requires LLM of specific capability. Therefore, we study a novel problem: the test-time compute-optimal scaling in multi-stage complex tasks, aiming to select suitable models and allocate budgets per subtask to maximize overall performance. TTS in multi-stage tasks introduces two fundamental challenges: (i) The combinatorial search space of model and budget allocations, combined with the high cost of inference, makes brute-force search impractical. (ii) The optimal model and budget allocations across subtasks are interdependent, increasing the complexity of the compute-optimal search. To address this gap, we conduct extensive pilot experiments on four tasks across six datasets, deriving three empirical insights characterizing the behavior of LLMs in multi-stage complex tasks. Informed by these insights, we propose AgentTTS, an LLM-agent-based framework that autonomously searches for compute-optimal allocations through iterative feedback-driven interactions with the execution environment. Experimental results demonstrate that AgentTTS significantly outperforms traditional and other LLM-based baselines in search efficiency, and shows improved robustness to varying training set sizes and enhanced interpretability.