UniScale: Adaptive Unified Inference Scaling via Online Joint Optimization of Model Routing and Test-Time Scaling
作者: Kaiyu Huang, Xingyu Wang, Mingze Kong, Zhubo Shi, Yuqian Hou, Hong Xu, Zhongxiang Dai, Minchen Yu, Qingjiang Shi
分类: cs.AI, cs.CL
发布日期: 2026-05-29
备注: Accepted at the 43rd International Conference on Machine Learning (ICML 2026)
💡 一句话要点
提出UniScale,通过在线联合优化模型路由和测试时缩放,自适应地统一推理加速。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 推理加速 模型路由 测试时缩放 在线学习 多臂老虎机 自适应推理
📋 核心要点
- 现有方法在模型路由和测试时缩放(TTS)上解耦优化,导致性能提升受限且适应性不足。
- UniScale通过统一模型路由和TTS到一个优化空间,实现细粒度的质量-成本权衡。
- UniScale采用在线学习框架,利用上下文多臂老虎机和LinUCB算法,自适应地调整推理策略。
📝 摘要(中文)
在大型语言模型(LLM)的实际部署中,平衡推理质量和计算成本已成为核心挑战。现有方法主要沿两个独立维度解决这一难题:模型路由(在不同规模的模型间切换以匹配请求复杂度)和测试时缩放(TTS)(在固定模型内调整推理时计算量以进行细粒度控制)。然而,这种解耦设计存在固有局限性。模型路由由于模型规模的稀疏性导致性能的粗粒度离散变化,而单模型TTS通常遇到容量上限,并且随着计算量的增加,收益递减。此外,将这两种机制分开处理限制了动态推理环境中的适应性。为了克服这些限制,我们引入了统一推理缩放(UIS),它在单个优化空间中统一了模型路由和TTS。在此基础上,我们提出了UniScale,一个在线框架,它将自适应UIS建模为上下文多臂老虎机问题,并通过LinUCB学习推理策略。该框架结合了效率感知学习和成本建模,以确保在高维动作空间上进行稳定和可扩展的优化。评估表明,UniScale有效地利用了UIS空间中的协同作用,从而在各种动态推理场景中提供细粒度且始终如一的更好的质量-成本权衡。
🔬 方法详解
问题定义:现有的大型语言模型推理方法,通常将模型路由(选择不同大小的模型)和测试时缩放(调整单个模型的计算量)分开优化。这种解耦的方式导致模型路由的粒度较粗,无法精细调整性能,而测试时缩放则存在计算量增加带来的收益递减问题。此外,在动态变化的推理环境中,这种静态的优化策略难以适应。
核心思路:UniScale的核心思路是将模型路由和测试时缩放统一到一个优化空间中,从而实现更细粒度的性能调整和更好的适应性。通过联合优化模型选择和计算量分配,可以克服现有方法的局限性,在保证推理质量的同时,降低计算成本。
技术框架:UniScale采用一个在线学习框架,将自适应的统一推理缩放(UIS)建模为一个上下文多臂老虎机(Contextual Multi-Armed Bandit)问题。该框架包含以下主要模块:1) 特征提取模块,用于提取请求的上下文特征;2) 策略学习模块,使用LinUCB算法学习推理策略,即在给定上下文特征下,选择哪个模型以及分配多少计算量;3) 成本建模模块,用于估计不同模型和计算量下的计算成本;4) 效率感知学习模块,用于在学习过程中考虑计算效率,避免选择过于昂贵的策略。
关键创新:UniScale的关键创新在于将模型路由和测试时缩放统一到一个优化空间中,并通过在线学习的方式自适应地调整推理策略。与现有方法相比,UniScale能够更精细地控制推理过程,从而在质量和成本之间取得更好的平衡。此外,UniScale的在线学习框架能够适应动态变化的推理环境,提高系统的鲁棒性。
关键设计:UniScale使用LinUCB算法进行策略学习,该算法能够在探索和利用之间进行平衡,从而快速找到最优的推理策略。为了提高学习效率,UniScale采用了效率感知学习策略,即在选择动作时,会考虑动作的计算成本,避免选择过于昂贵的策略。此外,UniScale还设计了一个成本建模模块,用于估计不同模型和计算量下的计算成本,从而为策略学习提供指导。
🖼️ 关键图片
📊 实验亮点
论文通过实验证明,UniScale在各种动态推理场景中,能够有效地利用UIS空间中的协同作用,从而提供细粒度且始终如一的更好的质量-成本权衡。具体性能数据和对比基线未在摘要中给出,属于未知信息。
🎯 应用场景
UniScale适用于各种需要平衡推理质量和计算成本的大型语言模型部署场景,例如在线问答、对话系统、机器翻译等。该方法可以根据用户的请求复杂度和系统资源情况,自适应地调整推理策略,从而在保证服务质量的同时,降低计算成本,提高资源利用率。未来,UniScale可以扩展到其他类型的模型和任务中,例如图像识别、语音识别等。
📄 摘要(原文)
In real-world deployments of large language models (LLMs), balancing inference quality and computational cost has become a central challenge. Existing approaches tackle this trade-off along two largely independent dimensions: model routing, which switches among models of different scales to match request complexity, and test-time scaling (TTS), which adjusts inference-time compute within a fixed model for fine-grained control. However, this decoupled design introduces inherent limitations. Model routing yields coarse-grained, discrete performance changes due to the sparse set of model scales, while single-model TTS often encounters capacity ceilings and exhibits diminishing returns as compute increases. Moreover, treating the two mechanisms separately restricts adaptability in dynamic inference environments. To overcome these limitations, we introduce Unified Inference Scaling (UIS), which unifies model routing and TTS in a single optimization space. Building on this formulation, we propose UniScale, an online framework that models adaptive UIS as a contextual multi-armed bandit problem and learns inference policies via LinUCB. The framework incorporates efficiency-aware learning and cost modeling to ensure stable and scalable optimization over high-dimensional action spaces. Evaluation shows that UniScale effectively exploits the synergy in the UIS space to deliver a fine-grained and consistently better quality-cost trade-off across diverse, dynamic inference scenarios.