ATLAS: Agentic Test-time Learning-to-Allocate Scaling
作者: Peijia Qin, Qi Cao, Pengtao Xie
分类: cs.LG
发布日期: 2026-06-01
💡 一句话要点
提出ATLAS框架以优化大语言模型的推理过程
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 推理优化 测试时学习 动态调度 多模态推理 科学问答 代码生成
📋 核心要点
- 现有方法在测试时扩展中依赖固定的调度策略,限制了模型的灵活性和效率。
- ATLAS框架通过自主调度,允许模型在推理过程中动态选择解决方案和资源分配。
- 在多个基准测试中,ATLAS显著提高了性能,同时减少了API调用,相较于固定工作流基线表现更佳。
📝 摘要(中文)
测试时的扩展已成为提升大语言模型推理能力的重要方式,但其调度仍然依赖设计者的工程化,固定的样本预算、精炼循环、评分规则和搜索策略限制了计算资源的使用。本文提出ATLAS,一个自主的测试时扩展框架,允许LLM调度器全权控制整个过程。通过单一的动作'探索',调度器决定是否收集更多证据、何时停止以及如何综合最终答案。ATLAS在多个基准测试中表现出色,显著减少了API调用次数,提升了性能。
🔬 方法详解
问题定义:本文旨在解决现有测试时扩展方法中固定调度策略带来的灵活性不足和效率低下的问题。现有方法通常依赖于固定的样本预算和评分规则,无法适应动态变化的推理需求。
核心思路:ATLAS框架的核心思想是通过自主调度,使LLM调度器能够在推理过程中动态控制资源分配和决策。通过单一的'探索'动作,调度器可以选择是否收集更多证据、何时停止以及如何综合最终答案。
技术框架:ATLAS的整体架构包括一个LLM调度器和多个独立求解器。调度器负责控制整个推理过程,求解器则根据调度器的指令执行具体的推理任务。调度器的动作空间是可扩展的,允许在每次'探索'调用中指定求解器、推理努力或提示策略。
关键创新:ATLAS的主要创新在于其自主调度能力,使得模型能够在推理过程中动态调整策略,而不是依赖于固定的工作流。这种设计使得模型能够更有效地利用计算资源,提升推理性能。
关键设计:ATLAS的设计中,调度器的动作空间是可扩展的,允许用户根据具体任务需求灵活调整求解器和推理策略。此外,ATLAS-MM的多模型扩展进一步提升了性能,通过将求解器选择作为额外的动作维度,增强了模型的适应性。实验中,替换调度器的直接综合为单独的整合器会导致准确性下降,强调了状态证据管理的重要性。
🖼️ 关键图片
📊 实验亮点
在实验中,ATLAS在HLE-Verified基准上达到了56.00%的准确率,在LiveCodeBench上达到了82.29%,在GPQA-Diamond上达到了85.75%,在BabyVision上达到了23.71%。与固定工作流基线相比,ATLAS在使用更少的API调用的情况下显著提升了性能,展示了其在资源利用上的优势。
🎯 应用场景
ATLAS框架在科学问答、代码生成和多模态推理等领域具有广泛的应用潜力。通过提升大语言模型的推理能力,ATLAS可以为教育、科研、软件开发等行业提供更高效的智能助手,推动相关领域的技术进步和创新。
📄 摘要(原文)
Test-time scaling has become a major way to improve large language model reasoning, but its orchestration has remained designer-engineered: a fixed sample budget, a fixed refinement loop, a fixed scoring rule, or a fixed search policy decides how compute is spent, leaving the model in charge of solving but not of orchestration. We introduce ATLAS, an agentic test-time scaling framework in which an LLM orchestrator owns the control loop end-to-end. Through a single action, explore, which dispatches a fresh independent solver on the original problem, the orchestrator decides whether to gather more evidence, when to stop, and how to synthesize the final answer; the action space is extensible, with each explore call optionally specifying solver, reasoning effort, or prompting strategy. We evaluate ATLAS on four benchmarks covering scientific question answering, code generation, and multimodal reasoning under a Claude Sonnet 4.6 backbone, where it reaches 56.00% on HLE-Verified, 82.29% on LiveCodeBench, 85.75% on GPQA-Diamond, and 23.71% on BabyVision while using far fewer API calls than fixed-workflow baselines. A multi-model extension, ATLAS-MM, that exposes solver choice as an additional action dimension further improves HLE-Verified to 60.00% and LiveCodeBench to 85.63%, with consistent gains on GPQA-Diamond and BabyVision. Ablations replacing the orchestrator's direct synthesis with a separate integrator degrade or fail to improve accuracy on three of four benchmarks, consistent with the role of stateful evidence management in producing the gains.