How Robust Are Router-LLMs? Analysis of the Fragility of LLM Routing Capabilities
作者: Aly M. Kassem, Bernhard Schölkopf, Zhijing Jin
分类: cs.CL, cs.DB
发布日期: 2025-03-20
💡 一句话要点
提出DSC基准,揭示基于偏好数据的LLM路由器的脆弱性与安全风险
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: LLM路由 基准测试 安全性评估 偏好数据 模型选择
📋 核心要点
- 现有LLM路由评估benchmark主要关注通用能力,忽略了任务特定行为、隐私安全和后门风险。
- 提出DSC基准,对LLM路由器在多样化任务上的性能进行分类评估,并考察隐私安全问题。
- 实验表明,基于偏好数据的路由器虽然提高了效率,但存在类别驱动的次优决策和安全隐患。
📝 摘要(中文)
大型语言模型(LLM)路由已成为一种关键策略,它通过根据查询的复杂性动态地将查询分配给最合适的模型,从而平衡计算成本和性能。尽管最近的研究表明,基于偏好数据的路由器可以优于传统方法,但当前的评估基准仍然有限。它们主要关注一般的模型能力,而忽略了特定于任务的行为以及诸如隐私、安全和通过偏好数据引入的潜在后门漏洞等关键问题。为此,我们提出了DSC基准:多样化、简单和分类,这是一个评估框架,它对各种查询类型(包括编码、翻译、数学、人类指令、一般知识和LLM越狱)的路由器性能进行分类。此外,它还集成了隐私和安全评估,以揭示隐藏的风险。我们对三个基于偏好的路由器和两个商业同行的实验表明,虽然这些系统提高了效率,但它们经常做出次优的、类别驱动的决策。例如,基于BERT的路由器将所有编码和数学查询定向到最强大的LLM,即使更简单的模型就足够了,同时将越狱尝试路由到较弱的模型,从而提高了安全风险。
🔬 方法详解
问题定义:论文旨在解决现有LLM路由评估方法的不足,即缺乏对任务特定行为、隐私安全和潜在后门风险的全面评估。现有方法主要关注通用能力,无法有效揭示LLM路由器在不同任务上的性能差异以及潜在的安全漏洞。
核心思路:论文的核心思路是构建一个更全面、更细粒度的评估基准,即DSC基准,以更准确地评估LLM路由器的性能和安全性。该基准通过对不同类型的查询进行分类,并引入隐私和安全评估,从而揭示LLM路由器的潜在问题。
技术框架:DSC基准包含以下几个主要组成部分:1) 多样化的查询类型:包括编码、翻译、数学、人类指令、一般知识和LLM越狱等;2) 简单的查询设计:确保每个查询都易于理解和评估;3) 分类评估:对不同查询类型的路由器性能进行分类评估;4) 隐私和安全评估:评估路由器在处理敏感信息和防御恶意攻击方面的能力。
关键创新:论文的关键创新在于提出了DSC基准,这是一个更全面、更细粒度的LLM路由器评估框架。与现有方法相比,DSC基准不仅关注通用能力,还关注任务特定行为、隐私安全和潜在后门风险。
关键设计:DSC基准的关键设计包括:1) 查询类型的选择:选择具有代表性的查询类型,以覆盖LLM路由器的各种应用场景;2) 查询难度的控制:确保查询难度适中,既能反映LLM路由器的性能差异,又不会过于复杂;3) 评估指标的设计:设计合理的评估指标,以准确评估LLM路由器在不同方面的性能。
🖼️ 关键图片
📊 实验亮点
实验结果表明,基于偏好数据的路由器虽然提高了效率,但存在类别驱动的次优决策。例如,BERT路由器将所有编码和数学查询定向到最强大的LLM,即使简单的模型就足够了。更令人担忧的是,路由器将越狱尝试路由到较弱的模型,从而增加了安全风险。
🎯 应用场景
该研究成果可应用于LLM路由器的开发和评估,帮助开发者构建更高效、更安全、更可靠的LLM路由系统。此外,该研究还可以促进对LLM安全性的更深入理解,为防御LLM恶意攻击提供指导。
📄 摘要(原文)
Large language model (LLM) routing has emerged as a crucial strategy for balancing computational costs with performance by dynamically assigning queries to the most appropriate model based on query complexity. Despite recent advances showing that preference-data-based routers can outperform traditional methods, current evaluation benchmarks remain limited. They largely focus on general model capabilities while overlooking task-specific behaviors and critical concerns such as privacy, safety, and potential backdoor vulnerabilities introduced through preference data. In response, we propose the DSC benchmark: Diverse, Simple, and Categorized, an evaluation framework that categorizes router performance across a broad spectrum of query types, including coding, translation, mathematics, human instructions, general knowledge, and LLM jailbreaking. Additionally, it integrates privacy and safety assessments to reveal hidden risks. Our experiments on three preference-based routers and two commercial counterparts demonstrate that while these systems improve efficiency, they often make suboptimal, category-driven decisions. For instance, a BERT-based router directs all coding and mathematics queries to the most powerful LLM even when simpler models would suffice, while routing jailbreaking attempts to weaker models, thereby elevating safety risks.