Ares: Adaptive Reasoning Effort Selection for Efficient LLM Agents

作者: Jingbo Yang, Bairu Hou, Wei Wei, Yujia Bao, Shiyu Chang

分类: cs.AI

发布日期: 2026-03-09

💡 一句话要点

Ares：自适应推理努力选择框架，提升LLM Agent效率

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: LLM Agent 自适应推理 推理效率 动态推理 多步骤任务

📋 核心要点

现有LLM Agent虽然通过长链推理提高准确率，但推理成本高昂，且静态推理策略效果不佳。
Ares框架通过轻量级路由动态预测每一步所需的最低推理级别，从而优化推理过程。
实验表明，Ares在保证任务成功率的同时，显著降低了推理token的使用量，最高可达52.7%。

📝 摘要（中文）

本文提出Ares，一个针对多步骤Agent任务的动态推理努力选择框架。Ares能够根据交互历史，利用轻量级路由预测每一步所需的最低推理级别。为了训练该路由，本文设计了一个数据生成流程，用于识别成功完成步骤所需的最小推理努力。随后，对路由进行微调以预测这些级别，从而实现对任何LLM Agent的即插即用集成。在工具使用Agent（TAU-Bench）、深度研究Agent（BrowseComp-Plus）和Web Agent（WebArena）等任务上的评估结果表明，与固定高努力推理相比，Ares最多可减少52.7%的推理token使用量，同时任务成功率的降低幅度很小。

🔬 方法详解

问题定义：论文旨在解决LLM Agent在多步骤任务中推理成本高昂的问题。现有方法要么采用固定高努力推理，导致资源浪费；要么采用固定低努力推理，导致性能下降；随机选择策略也无法有效降低成本并保持准确性。因此，需要一种能够根据任务难度动态调整推理努力的方法。

核心思路：Ares的核心思路是根据Agent与环境的交互历史，预测每一步所需的最低推理努力级别。对于简单的步骤，采用低努力推理；对于复杂的步骤，采用高努力推理。通过这种自适应的方式，在保证任务成功率的前提下，降低推理成本。

技术框架：Ares框架主要包含以下几个模块：1) 交互历史记录模块，用于记录Agent与环境的交互过程；2) 轻量级路由模块，用于预测每一步所需的推理级别；3) 数据生成模块，用于生成训练路由所需的数据；4) 微调模块，用于微调路由的参数。整体流程是：Agent执行任务时，交互历史记录模块记录交互过程，轻量级路由模块根据交互历史预测推理级别，Agent根据预测的推理级别执行下一步操作。

关键创新：Ares的关键创新在于提出了一个动态推理努力选择框架，能够根据任务难度自适应地调整推理级别。与现有方法相比，Ares能够更有效地利用计算资源，在保证任务成功率的同时，降低推理成本。此外，Ares的数据生成流程能够自动识别成功完成步骤所需的最小推理努力，避免了人工标注的成本。

关键设计：轻量级路由可以使用各种轻量级的神经网络结构，例如MLP或Transformer。数据生成流程通过逐步降低推理级别，直到任务失败，来确定最小推理努力。损失函数可以使用交叉熵损失函数，用于衡量路由预测的推理级别与真实推理级别之间的差异。具体的参数设置需要根据具体的任务和数据集进行调整。

🖼️ 关键图片

📊 实验亮点

实验结果表明，在TAU-Bench、BrowseComp-Plus和WebArena等任务上，Ares与固定高努力推理相比，最多可减少52.7%的推理token使用量，同时任务成功率的降低幅度很小。例如，在WebArena任务上，Ares在token使用量减少40%的情况下，任务成功率仅下降了2%。这些结果表明，Ares能够有效地降低推理成本，同时保持较高的任务性能。

🎯 应用场景

Ares框架可广泛应用于各种需要LLM Agent进行多步骤推理的任务，例如网页浏览、工具使用、知识检索等。通过降低推理成本，Ares可以提高LLM Agent的效率和可扩展性，使其能够更好地服务于实际应用场景。未来，Ares可以进一步扩展到其他类型的Agent和任务，并与其他优化技术相结合，以实现更高的性能。

📄 摘要（原文）

Modern agents powered by thinking LLMs achieve high accuracy through long chain-of-thought reasoning but incur substantial inference costs. While many LLMs now support configurable reasoning levels (e.g., high/medium/low), static strategies are often ineffective: using low-effort modes at every step leads to significant performance degradation, while random selection fails to preserve accuracy or provide meaningful cost reduction. However, agents should reserve high reasoning effort for difficult steps like navigating complex website structures, while using lower-effort modes for simpler steps like opening a target URL. In this paper, we propose Ares, a framework for per-step dynamic reasoning effort selection tailored for multi-step agent tasks. Ares employs a lightweight router to predict the lowest appropriate reasoning level for each step based on the interaction history. To train this router, we develop a data generation pipeline that identifies the minimum reasoning effort required for successful step completion. We then fine-tune the router to predict these levels, enabling plug-and-play integration for any LLM agents. We evaluate Ares on a diverse set of agent tasks, including TAU-Bench for tool use agents, BrowseComp-Plus for deep-research agents, and WebArena for web agents. Experimental results show that Ares reduces reasoning token usage by up to 52.7% compared to fixed high-effort reasoning, while introducing minimal degradation in task success rates.

Ares: Adaptive Reasoning Effort Selection for Efficient LLM Agents

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理