Reasoning Is Not Free: Robust Adaptive Cost-Efficient Routing for LLM-as-a-Judge

📄 arXiv: 2605.10805v1 📥 PDF

作者: Wenbo Zhang, Lijinghua Zhang, Liner Xiang, Hengrui Cai

分类: cs.AI, cs.CL, stat.ML

发布日期: 2026-05-11

备注: Accepted at ICML 2026


💡 一句话要点

提出RACER路由框架,通过分布鲁棒优化实现LLM-as-a-Judge的成本效益平衡

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 自动化评测 分布鲁棒优化 计算成本优化 动态路由 推理能力 模型效率

📋 核心要点

  1. 现有LLM评测方法盲目使用推理型模型,导致在简单任务中产生不必要的计算开销,且缺乏对任务分布变化的鲁棒性。
  2. 提出RACER框架,将路由决策建模为带约束的分布鲁棒优化问题,动态分配推理型与非推理型模型以最大化效用。
  3. 实验证明RACER在不同任务分布下均能显著优化准确率与成本的权衡,且具备理论上的收敛性与策略最优性保证。

📝 摘要(中文)

具备推理能力的大语言模型(LLM)正被广泛用作自动化评测器(LLM-as-a-Judge),但其在不同任务中的收益与成本权衡尚不明确。本文通过对比实验发现,显式推理在数学和代码等结构化验证任务中能显著提升准确率,但在简单任务中收益有限甚至为负,且伴随高昂的计算成本。为此,研究提出了一种鲁棒自适应成本高效路由(RACER)框架,将路由问题建模为受限的分布鲁棒优化问题,在固定预算下动态选择推理型或非推理型评测器。RACER通过KL散度不确定性集合应对分布偏移,具备高效的原始-对偶求解算法,并提供最优策略唯一性及线性收敛的理论保证。实验表明,RACER在分布偏移下实现了卓越的准确率与成本权衡。

🔬 方法详解

问题定义:论文旨在解决LLM作为评测器时“一刀切”使用推理模型导致的资源浪费问题。现有痛点在于:推理模型成本高昂,但在简单任务中边际收益递减,且评测任务的分布往往随时间发生偏移,导致静态路由策略失效。

核心思路:核心思想是“按需推理”。通过引入分布鲁棒优化(DRO),在满足预算约束的前提下,针对任务分布的不确定性进行路由决策,确保在最坏情况下的性能表现,从而实现成本与准确率的最优权衡。

技术框架:RACER框架包含三个核心部分:任务特征提取器、基于KL散度约束的分布鲁棒路由策略模块,以及原始-对偶优化求解器。系统根据输入任务的特征,动态计算路由概率分布,决定调用推理模型还是非推理模型。

关键创新:最重要的创新在于将路由问题转化为分布鲁棒优化问题,利用KL散度构建不确定性集合,使得模型能够显式地对分布偏移进行建模,而非仅仅依赖于训练数据的经验分布。

关键设计:关键设计包括:1. 引入KL散度作为分布偏移的度量,构建鲁棒性约束;2. 设计高效的原始-对偶算法,确保在处理大规模任务流时能够快速求解最优路由策略;3. 理论上证明了该策略的唯一性及线性收敛特性,保证了算法的稳定性和可靠性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,RACER在多种任务分布偏移场景下,均优于传统的静态路由和基于启发式的动态路由方法。在保持相同计算预算的前提下,RACER显著提升了评测的整体准确率,特别是在处理混合难度任务流时,其准确率-成本曲线表现出更优的帕累托前沿,验证了其在复杂评估环境下的鲁棒性与高效性。

🎯 应用场景

该研究适用于大规模自动化评测系统,如LLM开发中的自动评估流水线、在线模型监控及基准测试平台。通过RACER,企业和研究机构可以在有限的API预算下,显著提升评测系统的吞吐量与准确性,特别是在需要频繁进行代码审查、数学逻辑验证及复杂文本分析的工业场景中具有极高的应用价值。

📄 摘要(原文)

Reasoning-capable large language models (LLMs) have recently been adopted as automated judges, but their benefits and costs in LLM-as-a-Judge settings remain unclear. Through controlled comparisons between reasoning and non-reasoning judges, we show that explicit reasoning substantially improves judgment accuracy on tasks requiring structured verification (e.g., math and coding), while offering limited or even negative gains on simpler evaluations and incurring significantly higher computational cost. These findings motivate that reasoning should be used selectively rather than universally, with awareness of possible distribution shift. We propose a Robust Adaptive Cost-Efficient Routing (RACER), which dynamically selects between reasoning and non-reasoning judges under a fixed budget by formulating routing as a constrained distributionally robust optimization problem. RACER explicitly accounts for distribution shift via a KL-divergence uncertainty set, admits an efficient primal--dual algorithm, and enjoys theoretical guarantees including uniqueness of the optimal policy and linear convergence. Extensive experiments show that RACER achieves superior accuracy--cost trade-offs under distribution shift.