ODAR: Principled Adaptive Routing for LLM Reasoning via Active Inference

作者: Siyuan Ma, Bo Gao, Xiaojun Jia, Simeng Qin, Tianlin Li, Ke Ma, Xiaoshuang Jia, Wenqi Ren, Yang Liu

分类: cs.AI

发布日期: 2026-02-27

💡 一句话要点

提出ODAR-Expert，通过主动推理进行LLM推理的自适应路由，优化计算效率。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 自适应路由 主动推理 自由能 计算效率

📋 核心要点

现有LLM推理方法依赖于统一的蛮力采样，存在成本高、难归因和过度思考等问题。
ODAR-Expert通过主动推理动态路由查询，在快速和慢速代理间自适应分配计算资源。
实验表明，ODAR在多个基准测试中显著提升了准确率，并降低了计算成本。

📝 摘要（中文）

大型语言模型（LLM）推理的范式正从参数扩展转向测试时计算扩展，但许多现有方法仍然依赖于统一的蛮力采样（例如，固定的best-of-N或自洽性），这种方法成本高昂、难以归因，并且可能引发收益递减的过度思考。我们提出了ODAR-Expert，这是一个自适应路由框架，通过合理的资源分配来优化准确性-效率的权衡。ODAR使用基于摊销主动推理的难度估计器，在启发式快速代理和审慎的慢速代理之间动态路由查询。我们进一步引入了一种基于自由能原理的、风险敏感的融合机制，通过最小化变分自由能目标来选择答案，从而平衡对数似然与认知不确定性（方差熵），作为对异构候选者进行特别投票的合理替代方案。在23个基准上的广泛评估表明了强大而一致的收益，包括在MATH上达到98.2%的准确率，在Humanity's Last Exam (HLE)上达到54.8%的准确率，同时在计算匹配的设置下提高了计算-准确率的前沿。我们还在一个完全开源的堆栈（Llama 4 + DeepSeek）上验证了可重复性，其中ODAR超越了同质采样策略，同时降低了82%的计算成本。总的来说，我们的结果表明，思考最优的扩展需要基于自由能的决策进行自适应资源分配，而不是简单地增加测试时计算。

🔬 方法详解

问题定义：论文旨在解决大型语言模型推理过程中计算资源分配不合理的问题。现有方法如固定数量的采样或自洽性方法，要么计算成本高昂，要么容易导致过度思考，无法根据问题的难易程度动态调整计算资源。

核心思路：论文的核心思路是利用主动推理来估计问题的难度，并根据难度自适应地将问题路由到不同的推理代理（快速代理和慢速代理）。通过这种方式，可以避免对简单问题过度计算，同时保证复杂问题的推理质量。

技术框架：ODAR-Expert框架包含以下几个主要模块：1) 难度估计器：基于摊销主动推理，预测问题的难度。2) 路由机制：根据难度估计器的输出，将问题路由到快速代理或慢速代理。3) 推理代理：包括一个快速代理（例如，使用较小模型的快速推理）和一个慢速代理（例如，使用较大模型的更深入推理）。4) 融合机制：基于自由能原理，将快速代理和慢速代理的输出进行融合，选择最优答案。

关键创新：论文的关键创新在于：1) 自适应路由：根据问题难度动态分配计算资源，避免了固定策略的不足。2) 基于自由能的融合机制：利用变分自由能目标，平衡了答案的对数似然和认知不确定性，提供了一种更合理的答案选择方法。3) 主动推理的难度估计：使用主动推理来估计问题难度，为自适应路由提供了依据。

关键设计：难度估计器使用摊销主动推理，具体实现细节未知。融合机制的关键在于自由能的计算，需要平衡对数似然和方差熵。快速代理和慢速代理可以使用不同大小的模型，或者采用不同的推理策略。风险敏感参数用于调整对不确定性的容忍度。

🖼️ 关键图片

📊 实验亮点

ODAR-Expert在23个基准测试中取得了显著提升，在MATH数据集上达到了98.2%的准确率，在Humanity's Last Exam (HLE)数据集上达到了54.8%的准确率。在计算资源匹配的情况下，ODAR-Expert显著提高了计算-准确率的前沿。在开源的Llama 4 + DeepSeek堆栈上，ODAR-Expert超越了同质采样策略，同时降低了82%的计算成本。

🎯 应用场景

ODAR-Expert可应用于各种需要LLM推理的场景，例如问答系统、代码生成、数学问题求解等。通过自适应地分配计算资源，可以在保证推理准确率的同时，显著降低计算成本，提高系统的效率和可扩展性。该方法尤其适用于资源受限的场景，例如移动设备或边缘计算环境。

📄 摘要（原文）

The paradigm of large language model (LLM) reasoning is shifting from parameter scaling to test-time compute scaling, yet many existing approaches still rely on uniform brute-force sampling (for example, fixed best-of-N or self-consistency) that is costly, hard to attribute, and can trigger overthinking with diminishing returns. We propose ODAR-Expert, an adaptive routing framework that optimizes the accuracy-efficiency trade-off via principled resource allocation. ODAR uses a difficulty estimator grounded in amortized active inference to dynamically route queries between a heuristic Fast Agent and a deliberative Slow Agent. We further introduce a free-energy-principled, risk-sensitive fusion mechanism that selects answers by minimizing a variational free energy objective, balancing log-likelihood with epistemic uncertainty (varentropy) as a principled alternative to ad hoc voting over heterogeneous candidates. Extensive evaluation across 23 benchmarks shows strong and consistent gains, including 98.2% accuracy on MATH and 54.8% on Humanity's Last Exam (HLE), while improving the compute-accuracy frontier under compute-matched settings. We also validate reproducibility on a fully open-source stack (Llama 4 + DeepSeek), where ODAR surpasses homogeneous sampling strategies while reducing computational costs by 82%. Overall, our results suggest that thinking-optimal scaling requires adaptive resource allocation with free-energy-based decision-making rather than simply increasing test-time compute.

ODAR: Principled Adaptive Routing for LLM Reasoning via Active Inference

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理