ODAR: Principled Adaptive Routing for LLM Reasoning via Active Inference
作者: Siyuan Ma, Bo Gao, Xiaojun Jia, Simeng Qin, Tianlin Li, Ke Ma, Xiaoshuang Jia, Wenqi Ren, Yang Liu
分类: cs.AI
发布日期: 2026-02-27
💡 一句话要点
提出ODAR-Expert,通过主动推理进行LLM推理的自适应路由,优化计算效率。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 自适应路由 主动推理 自由能 计算效率
📋 核心要点
- 现有LLM推理方法依赖于统一的蛮力采样,存在成本高、难归因和过度思考等问题。
- ODAR-Expert通过主动推理动态路由查询,在快速和慢速代理间自适应分配计算资源。
- 实验表明,ODAR在多个基准测试中显著提升了准确率,并降低了计算成本。
📝 摘要(中文)
大型语言模型(LLM)推理的范式正从参数扩展转向测试时计算扩展,但许多现有方法仍然依赖于统一的蛮力采样(例如,固定的best-of-N或自洽性),这种方法成本高昂、难以归因,并且可能引发收益递减的过度思考。我们提出了ODAR-Expert,这是一个自适应路由框架,通过合理的资源分配来优化准确性-效率的权衡。ODAR使用基于摊销主动推理的难度估计器,在启发式快速代理和审慎的慢速代理之间动态路由查询。我们进一步引入了一种基于自由能原理的、风险敏感的融合机制,通过最小化变分自由能目标来选择答案,从而平衡对数似然与认知不确定性(方差熵),作为对异构候选者进行特别投票的合理替代方案。在23个基准上的广泛评估表明了强大而一致的收益,包括在MATH上达到98.2%的准确率,在Humanity's Last Exam (HLE)上达到54.8%的准确率,同时在计算匹配的设置下提高了计算-准确率的前沿。我们还在一个完全开源的堆栈(Llama 4 + DeepSeek)上验证了可重复性,其中ODAR超越了同质采样策略,同时降低了82%的计算成本。总的来说,我们的结果表明,思考最优的扩展需要基于自由能的决策进行自适应资源分配,而不是简单地增加测试时计算。
🔬 方法详解
问题定义:论文旨在解决大型语言模型推理过程中计算资源分配不合理的问题。现有方法如固定数量的采样或自洽性方法,要么计算成本高昂,要么容易导致过度思考,无法根据问题的难易程度动态调整计算资源。
核心思路:论文的核心思路是利用主动推理来估计问题的难度,并根据难度自适应地将问题路由到不同的推理代理(快速代理和慢速代理)。通过这种方式,可以避免对简单问题过度计算,同时保证复杂问题的推理质量。
技术框架:ODAR-Expert框架包含以下几个主要模块:1) 难度估计器:基于摊销主动推理,预测问题的难度。2) 路由机制:根据难度估计器的输出,将问题路由到快速代理或慢速代理。3) 推理代理:包括一个快速代理(例如,使用较小模型的快速推理)和一个慢速代理(例如,使用较大模型的更深入推理)。4) 融合机制:基于自由能原理,将快速代理和慢速代理的输出进行融合,选择最优答案。
关键创新:论文的关键创新在于:1) 自适应路由:根据问题难度动态分配计算资源,避免了固定策略的不足。2) 基于自由能的融合机制:利用变分自由能目标,平衡了答案的对数似然和认知不确定性,提供了一种更合理的答案选择方法。3) 主动推理的难度估计:使用主动推理来估计问题难度,为自适应路由提供了依据。
关键设计:难度估计器使用摊销主动推理,具体实现细节未知。融合机制的关键在于自由能的计算,需要平衡对数似然和方差熵。快速代理和慢速代理可以使用不同大小的模型,或者采用不同的推理策略。风险敏感参数用于调整对不确定性的容忍度。
🖼️ 关键图片
📊 实验亮点
ODAR-Expert在23个基准测试中取得了显著提升,在MATH数据集上达到了98.2%的准确率,在Humanity's Last Exam (HLE)数据集上达到了54.8%的准确率。在计算资源匹配的情况下,ODAR-Expert显著提高了计算-准确率的前沿。在开源的Llama 4 + DeepSeek堆栈上,ODAR-Expert超越了同质采样策略,同时降低了82%的计算成本。
🎯 应用场景
ODAR-Expert可应用于各种需要LLM推理的场景,例如问答系统、代码生成、数学问题求解等。通过自适应地分配计算资源,可以在保证推理准确率的同时,显著降低计算成本,提高系统的效率和可扩展性。该方法尤其适用于资源受限的场景,例如移动设备或边缘计算环境。
📄 摘要(原文)
The paradigm of large language model (LLM) reasoning is shifting from parameter scaling to test-time compute scaling, yet many existing approaches still rely on uniform brute-force sampling (for example, fixed best-of-N or self-consistency) that is costly, hard to attribute, and can trigger overthinking with diminishing returns. We propose ODAR-Expert, an adaptive routing framework that optimizes the accuracy-efficiency trade-off via principled resource allocation. ODAR uses a difficulty estimator grounded in amortized active inference to dynamically route queries between a heuristic Fast Agent and a deliberative Slow Agent. We further introduce a free-energy-principled, risk-sensitive fusion mechanism that selects answers by minimizing a variational free energy objective, balancing log-likelihood with epistemic uncertainty (varentropy) as a principled alternative to ad hoc voting over heterogeneous candidates. Extensive evaluation across 23 benchmarks shows strong and consistent gains, including 98.2% accuracy on MATH and 54.8% on Humanity's Last Exam (HLE), while improving the compute-accuracy frontier under compute-matched settings. We also validate reproducibility on a fully open-source stack (Llama 4 + DeepSeek), where ODAR surpasses homogeneous sampling strategies while reducing computational costs by 82%. Overall, our results suggest that thinking-optimal scaling requires adaptive resource allocation with free-energy-based decision-making rather than simply increasing test-time compute.