Don't Overthink It: Inter-Rollout Action Agreement as a Free Adaptive-Compute Signal for LLM Agents
作者: Khushal Sethi
分类: cs.AI, cs.CL, cs.MA
发布日期: 2026-04-09
💡 一句话要点
TrACE:基于行动一致性的LLM Agent自适应计算控制器
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: LLM Agent 自适应计算 行动一致性 免训练 多步决策
📋 核心要点
- 现有LLM Agent的计算资源分配策略缺乏灵活性,无法根据决策难度自适应调整。
- TrACE通过评估不同rollout间行动的一致性来判断决策难度,并以此动态调整计算资源。
- 实验表明,TrACE在保证性能的同时,显著减少了LLM的调用次数,提升了计算效率。
📝 摘要(中文)
本文提出了一种名为TrACE(Trajectorial Adaptive Compute via agrEement)的免训练控制器,它通过测量rollout间的行动一致性,自适应地为LLM Agent的每个时间步分配计算资源。在每个步骤中,TrACE采样一小组候选行动,并测量模型对同一行动的承诺程度。高一致性表明决策容易,控制器立即提交;低一致性表明不确定性,控制器采样额外的rollout,直到达到可配置的上限,然后提交多数行动。该方法无需学习组件、外部验证器或人工标注。在GSM8K和MiniHouse两个基准测试中,使用Qwen 2.5 3B Instruct模型,TrACE-4在匹配SC-4准确率的同时,分别减少了33%和39%的LLM调用次数。TrACE-8在匹配SC-8准确率的同时,分别减少了55%和65%的调用次数。研究进一步表明,rollout间的一致性是步骤级别成功率的可靠信号,验证了模型自身输出一致性编码了难度信息,且无需训练即可利用这一信息的核心假设。TrACE是首个在多步序列决策任务中评估的、免训练的、基于时间步的LLM Agent自适应计算控制器。
🔬 方法详解
问题定义:现有的大语言模型Agent在推理时,通常采用固定计算预算,即每个决策步骤都分配相同的计算资源,而没有考虑到不同步骤的难度差异。这种方法效率低下,对于简单的步骤造成了计算资源的浪费。
核心思路:本文的核心思路是利用大语言模型自身生成结果的一致性来判断决策的难度。如果模型在多次rollout中对某个行动的选择高度一致,则认为该步骤相对简单,可以减少计算量;反之,如果模型在不同rollout中选择的行动差异较大,则认为该步骤较为困难,需要增加计算量。
技术框架:TrACE控制器的整体流程如下:1) 在每个时间步,首先采样一小组候选行动(rollout)。2) 计算这些rollout之间行动的一致性。3) 如果一致性高于设定的阈值,则直接选择多数行动作为最终决策。4) 如果一致性低于阈值,则继续采样更多的rollout,直到达到预设的最大rollout数量。5) 最终选择所有rollout中的多数行动作为最终决策。
关键创新:TrACE的关键创新在于提出了一种免训练的自适应计算分配方法,它不需要任何额外的学习组件、外部验证器或人工标注,而是直接利用大语言模型自身的输出一致性作为难度信号。这种方法简单有效,并且易于部署。
关键设计:TrACE的关键设计包括:1) 如何定义和计算rollout之间行动的一致性。论文中采用的是简单的多数投票机制。2) 最大rollout数量的设置,这决定了计算资源的上限。3) 一致性阈值的设置(如果存在),用于判断是否需要增加rollout数量。论文中没有显式地使用一致性阈值,而是直接根据最大rollout数量进行调整。
📊 实验亮点
TrACE在GSM8K和MiniHouse两个基准测试中取得了显著的成果。在GSM8K上,TrACE-4在匹配SC-4准确率的同时,减少了33%的LLM调用次数;TrACE-8在匹配SC-8准确率的同时,减少了55%的调用次数。在MiniHouse上,TrACE-4和TrACE-8分别减少了39%和65%的LLM调用次数,同时保持了与SC-4和SC-8相当的准确率。这些结果表明,TrACE能够有效地自适应分配计算资源,提高LLM Agent的效率。
🎯 应用场景
TrACE具有广泛的应用前景,可以应用于各种需要大语言模型Agent进行决策的任务中,例如机器人导航、游戏AI、对话系统等。通过自适应地分配计算资源,TrACE可以显著提高Agent的效率和性能,降低计算成本,并使得LLM Agent能够在资源受限的环境中运行。
📄 摘要(原文)
Inference-time compute scaling has emerged as a powerful technique for improving the reliability of large language model (LLM) agents, but existing methods apply compute uniformly: every decision step receives the same budget regardless of its difficulty. We introduce TrACE (Trajectorical Adaptive Compute via agrEement), a training-free controller that allocates LLM calls adaptively across agent timesteps by measuring inter-rollout action agreement. At each step, TrACE samples a small set of candidate next actions and measures how consistently the model commits to the same action. High agreement signals an easy decision; the controller commits immediately. Low agreement signals uncertainty; the controller samples additional rollouts up to a configurable cap before committing to the plurality action. No learned components, no external verifier, and no human labels are required. We evaluate TrACE against greedy decoding and fixed-budget self-consistency (SC-4, SC-8) on two benchmarks spanning single-step reasoning (GSM8K, n=50) and multi-step household navigation (MiniHouse, n=30), using a Qwen 2.5 3B Instruct model running on CPU. TrACE-4 matches SC-4 accuracy while using 33% fewer LLM calls on GSM8K and 39% fewer on MiniHouse. TrACE-8 matches SC-8 accuracy with 55% fewer calls on GSM8K and 65% fewer on MiniHouse. We further show that inter-rollout agreement is a reliable signal of step-level success, validating the core hypothesis that the model's own output consistency encodes difficulty information that can be exploited without training. TrACE is the first training-free, per-timestep adaptive-compute controller for LLM agents to be evaluated on multi-step sequential decision tasks.