LLMs Improving LLMs: Agentic Discovery for Test-Time Scaling
作者: Tong Zheng, Haolin Liu, Chengsong Huang, Huiwen Bao, Sheng Zhang, Rui Liu, Runpeng Dai, Ruibo Chen, Chenxi Liu, Tianyi Xiong, Xidong Wu, Hongming Zhang, Heng Huang
分类: cs.CL
发布日期: 2026-05-08
备注: 25 pages
🔗 代码/项目: GITHUB
💡 一句话要点
提出AutoTTS框架,通过智能体自动发现推理时扩展(TTS)策略以优化计算分配
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 推理时扩展 自动化策略发现 计算资源分配 数学推理 智能体系统
📋 核心要点
- 现有TTS策略高度依赖人工设计与直觉调优,难以穷尽复杂的计算分配空间,限制了模型推理性能的进一步挖掘。
- 提出AutoTTS框架,将TTS策略发现转化为环境驱动的控制器合成问题,通过预收集轨迹实现高效的自动化搜索。
- 实验证明,AutoTTS发现的策略在数学推理基准上优于人工基线,且具备跨模型规模的泛化性,发现成本仅为39.9美元。
📝 摘要(中文)
推理时扩展(TTS)已成为通过在推理阶段分配额外计算资源来提升大语言模型(LLM)性能的有效手段。然而,现有的TTS策略多依赖人工设计,研究人员需凭直觉手动定义推理模式并调整启发式规则,导致巨大的计算分配空间未被充分探索。为此,本文提出了AutoTTS框架,将研究重点从设计具体的TTS启发式规则转向构建可自动发现TTS策略的环境。AutoTTS的核心在于环境构建,即通过将宽度-深度TTS建模为预收集推理轨迹上的控制器合成问题,实现对分支、继续、探测、剪枝或停止等决策的自动化控制,并提供低成本的反馈机制。实验表明,AutoTTS发现的策略在数学推理任务中显著优化了准确率与成本的权衡,且具有良好的泛化能力,发现过程仅需极低的计算成本。
🔬 方法详解
问题定义:现有TTS方法(如思维链、树搜索)多为静态或人工定义的启发式规则,无法根据具体问题的难度动态调整计算资源,导致推理效率与准确率之间的权衡(Trade-off)不佳。
核心思路:将TTS策略的发现过程视为一个“环境驱动”的自动化过程。通过构建一个可评估的搜索环境,让智能体自动学习何时进行分支、何时剪枝或停止,从而实现计算资源的动态最优分配。
技术框架:AutoTTS包含环境构建与控制器合成两个阶段。首先,利用预收集的推理轨迹和探测信号构建搜索空间;其次,通过智能体在环境中进行策略搜索,控制器根据当前状态决定推理路径的走向,并利用细粒度执行反馈进行迭代优化。
关键创新:引入了“环境驱动”的发现范式,将TTS策略的制定从人工经验转向自动化搜索;通过低成本的反馈机制,避免了在搜索过程中反复调用昂贵的LLM,极大地提升了发现效率。
关键设计:采用beta参数化技术使搜索空间更具可控性;引入细粒度执行轨迹反馈,帮助智能体诊断推理失败的原因,从而实现更精准的策略演化。
🖼️ 关键图片
📊 实验亮点
在数学推理基准测试中,AutoTTS发现的策略在准确率与计算成本的权衡上显著优于强人工基线。该方法不仅在不同模型规模间表现出良好的泛化性,且整个发现过程仅耗时160分钟,成本仅为39.9美元,展示了极高的性价比与工业应用潜力。
🎯 应用场景
该研究适用于需要高精度推理的复杂任务场景,如数学证明、代码生成、逻辑分析及科学计算。通过自动化的计算分配,AutoTTS能够显著降低复杂任务的推理成本,提升模型在资源受限环境下的实用性,对构建高效能的推理智能体具有深远影响。
📄 摘要(原文)
Test-time scaling (TTS) has become an effective approach for improving large language model performance by allocating additional computation during inference. However, existing TTS strategies are largely hand-crafted: researchers manually design reasoning patterns and tune heuristics by intuition, leaving much of the computation-allocation space unexplored. We propose an environment-driven framework, AutoTTS, that changes what researchers design: from individual TTS heuristics to environments where TTS strategies can be discovered automatically. The key to AutoTTS lies in environment construction: the discovery environment must make the control space tractable and provide cheap, frequent feedback for TTS search. As a concrete instantiation, we formulate width--depth TTS as controller synthesis over pre-collected reasoning trajectories and probe signals, where controllers decide when to branch, continue, probe, prune, or stop and can be evaluated cheaply without repeated LLM calls. We further introduce beta parameterization to make the search tractable and fine-grained execution trace feedback to improve discovery efficiency by helping the agent diagnose why a TTS program fails. Experiments on mathematical reasoning benchmarks show that the discovered strategies improve the overall accuracy--cost tradeoff over strong manually designed baselines. The discovered strategies generalize to held-out benchmarks and model scales, while the entire discovery costs only $39.9 and 160 minutes. Our data, and code will be open-source at https://github.com/zhengkid/AutoTTS.