Confident or Seek Stronger: Exploring Uncertainty-Based On-device LLM Routing From Benchmarking to Generalization

作者: Yu-Neng Chuang, Leisheng Yu, Guanchu Wang, Lizhe Zhang, Zirui Liu, Xuanting Cai, Yang Sui, Vladimir Braverman, Xia Hu

分类: cs.CL, cs.AI, cs.LG

发布日期: 2025-02-06

💡 一句话要点

探索基于不确定性的端侧LLM路由：从基准测试到泛化

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 端侧LLM 不确定性量化 路由策略 泛化能力 校准数据

📋 核心要点

现有端侧SLM处理复杂查询时精度不足，但直接使用LLM成本过高，需要在精度和效率间权衡。
论文提出基于不确定性的路由策略，即SLM对结果不确定时，将请求路由到更强大的LLM。
通过校准数据构建指令管道，提升路由策略在新的下游任务上的泛化能力，无需额外数据。

📝 摘要（中文）

大型语言模型（LLM）越来越多地部署在边缘设备上。为了提高端侧部署的效率，通常采用小型语言模型（SLM），因为它们具有高效的解码延迟和降低的能耗。然而，这些SLM在处理复杂查询时经常产生不准确的响应。一个有希望的解决方案是基于不确定性的SLM路由，即当SLM产生低置信度的响应时，将高风险查询卸载到更强大的LLM。这遵循“如果你缺乏信心，寻求更强的支持”的原则，以提高可靠性。依赖更强大的LLM是有效的，但会增加调用成本。因此，在效率和效力之间取得路由平衡仍然是一个关键挑战。此外，将路由策略有效地推广到新的数据集仍然未被充分探索。在本文中，我们对从SLM到LLM的基于不确定性的路由策略的基准测试和泛化进行了全面的研究，涵盖了1500多个设置。我们的发现强调：首先，不同不确定性量化（UQ）方法中的不确定性-正确性对齐显著影响路由性能。其次，不确定性分布更多地取决于特定的SLM和选择的UQ方法，而不是下游数据。基于此，我们提出了一个校准数据构建指令管道，并开源了一个构建的预留集，以增强新下游场景中的路由泛化。实验结果表明，校准数据有效地引导了路由性能，而无需任何新数据。

🔬 方法详解

问题定义：论文旨在解决端侧部署LLM时，小型语言模型（SLM）在处理复杂查询时精度不足的问题。直接使用大型语言模型（LLM）虽然可以提高精度，但会显著增加计算成本和延迟，不适用于资源受限的边缘设备。因此，如何在SLM和LLM之间进行智能路由，以在精度和效率之间取得平衡，是本研究要解决的核心问题。现有方法缺乏有效的路由策略，尤其是在面对新的下游任务时，泛化能力不足。

核心思路：论文的核心思路是利用SLM自身的不确定性估计来指导路由决策。当SLM对某个查询的回答置信度较低时，将其路由到更强大的LLM进行处理。这种方法的核心在于“如果缺乏信心，寻求更强的支持”，旨在提高整体系统的可靠性和准确性，同时尽量减少对昂贵LLM的调用。

技术框架：整体框架包含以下几个主要阶段：1) 不确定性量化（UQ）：使用不同的UQ方法（例如，Dropout、Deep Ensembles）来估计SLM对每个查询的不确定性。2) 路由策略：基于UQ的结果，设计路由策略，决定是否将查询路由到LLM。常用的策略是设定一个阈值，当UQ值超过阈值时，则进行路由。3) 校准数据构建：为了提高路由策略的泛化能力，论文提出了一个校准数据构建指令管道，用于生成具有代表性的校准数据集。4) 评估：在多个数据集和任务上评估路由策略的性能，包括精度、延迟和成本。

关键创新：论文的关键创新在于：1) 对不确定性-正确性对齐的深入分析：研究发现不同UQ方法的不确定性与正确性之间的对齐程度对路由性能有显著影响。2) 校准数据构建指令管道：提出了一种新的校准数据构建方法，可以有效提高路由策略在新的下游任务上的泛化能力，而无需任何新的训练数据。3) 全面的基准测试：在1500多个设置下进行了广泛的实验，为基于不确定性的路由策略提供了全面的评估和分析。

关键设计：论文的关键设计包括：1) 不确定性量化方法选择：研究了多种UQ方法，并分析了它们对路由性能的影响。2) 路由阈值设定：探索了不同的路由阈值设定方法，以平衡精度和成本。3) 校准数据构建指令：设计了一套指令，用于生成具有代表性的校准数据集，以提高路由策略的泛化能力。这些指令可能包括生成不同难度级别的问题、包含不同类型的错误等。

🖼️ 关键图片

📊 实验亮点

实验结果表明，论文提出的校准数据构建方法可以有效提高路由策略在新的下游任务上的泛化能力，而无需任何新的训练数据。具体来说，使用校准数据可以显著提高路由策略的精度，同时降低对昂贵LLM的调用次数，从而在精度和效率之间取得更好的平衡。此外，研究还发现，不同UQ方法的不确定性与正确性之间的对齐程度对路由性能有显著影响，为选择合适的UQ方法提供了指导。

🎯 应用场景

该研究成果可应用于各种端侧LLM部署场景，例如智能手机、物联网设备和边缘服务器。通过智能路由，可以在保证精度的前提下，显著降低计算成本和延迟，提高用户体验。此外，该研究提出的校准数据构建方法，可以有效提高路由策略在新的下游任务上的泛化能力，降低了模型部署的难度和成本。未来，该技术有望推动LLM在更多资源受限的场景下的应用。

📄 摘要（原文）

Large language models (LLMs) are increasingly deployed and democratized on edge devices. To improve the efficiency of on-device deployment, small language models (SLMs) are often adopted due to their efficient decoding latency and reduced energy consumption. However, these SLMs often generate inaccurate responses when handling complex queries. One promising solution is uncertainty-based SLM routing, offloading high-stakes queries to stronger LLMs when resulting in low-confidence responses on SLM. This follows the principle of "If you lack confidence, seek stronger support" to enhance reliability. Relying on more powerful LLMs is yet effective but increases invocation costs. Therefore, striking a routing balance between efficiency and efficacy remains a critical challenge. Additionally, efficiently generalizing the routing strategy to new datasets remains under-explored. In this paper, we conduct a comprehensive investigation into benchmarking and generalization of uncertainty-driven routing strategies from SLMs to LLMs over 1500+ settings. Our findings highlight: First, uncertainty-correctness alignment in different uncertainty quantification (UQ) methods significantly impacts routing performance. Second, uncertainty distributions depend more on both the specific SLM and the chosen UQ method, rather than downstream data. Building on the insight, we propose a calibration data construction instruction pipeline and open-source a constructed hold-out set to enhance routing generalization on new downstream scenarios. The experimental results indicate calibration data effectively bootstraps routing performance without any new data.

Confident or Seek Stronger: Exploring Uncertainty-Based On-device LLM Routing From Benchmarking to Generalization

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理