Pay for Hints, Not Answers: LLM Shepherding for Cost-Efficient Inference
作者: Ziming Dong, Hardik Sharma, Evan O'Toole, Jaya Prakash Champati, Kui Wu
分类: cs.LG
发布日期: 2026-01-29
💡 一句话要点
提出LLM Shepherding框架,通过少量LLM提示指导SLM,实现成本效益更高的推理。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 小型语言模型 成本效益 推理优化 提示学习 模型协作 数学推理 代码生成
📋 核心要点
- 现有方法在LLM和SLM之间进行选择或级联,但未能充分利用LLM的知识,存在成本和效率的瓶颈。
- LLM Shepherding通过向SLM提供来自LLM的少量提示,指导SLM进行推理,从而提高SLM的准确性。
- 实验表明,该方法在数学推理和代码生成任务中,显著降低了推理成本,同时保持或提高了准确性。
📝 摘要(中文)
大型语言模型(LLM)在复杂推理任务中表现出色,但其推理成本限制了大规模部署。小型语言模型(SLM)虽然显著降低了成本,但在准确性方面却大幅落后。现有的路由和级联方法将LLM视为非此即彼的资源:要么查询完全绕过LLM,要么LLM以全成本生成完整响应。我们引入了LLM Shepherding框架,该框架仅从LLM请求一个简短的前缀(提示),并将其提供给SLM。这种简单的机制在数学和编码任务中非常有效:即使提示仅占LLM完整响应的10-30%,也能显著提高SLM的准确性。Shepherding推广了路由和级联,并在oracle决策下实现了更低的成本。我们开发了一个两阶段预测器,它联合确定是否需要提示以及需要请求多少个token。在广泛使用的数学推理(GSM8K、CNK12)和代码生成(HumanEval、MBPP)基准测试中,相对于仅使用LLM的推理,Shepherding降低了42-94%的成本。与最先进的路由和级联基线相比,shepherding在匹配准确性的同时,实现了高达2.8倍的成本降低。据我们所知,这是第一项利用token级别预算控制进行SLM-LLM协作的工作。
🔬 方法详解
问题定义:现有方法要么完全依赖昂贵的LLM,要么完全依赖准确率较低的SLM。路由和级联方法虽然尝试结合两者,但未能充分利用LLM的知识,且成本控制粒度较粗,无法在token级别进行优化。因此,如何以最小的LLM成本,最大化SLM的性能,是一个亟待解决的问题。
核心思路:LLM Shepherding的核心思想是让LLM扮演“牧羊人”的角色,通过提供少量提示(hints)来引导SLM进行推理。即使是LLM生成的一小段文本,也可能包含关键信息,帮助SLM克服推理障碍,提高准确率。这种方法旨在以更细粒度的方式利用LLM的知识,实现成本和性能的平衡。
技术框架:LLM Shepherding框架包含以下几个主要阶段:1) 提示请求:根据输入,决定是否需要LLM的提示,以及需要多少个token的提示。这通过一个两阶段预测器实现。2) LLM提示生成:如果需要提示,则从LLM请求指定数量的token。3) SLM推理:将LLM生成的提示作为上下文,输入到SLM中进行推理。4) 结果评估:评估SLM的输出结果。
关键创新:该论文最重要的创新点在于引入了token级别的预算控制,允许根据具体任务动态调整LLM的使用量。与传统的路由和级联方法相比,LLM Shepherding能够更有效地利用LLM的知识,并在成本和性能之间取得更好的平衡。这是首次在SLM-LLM协作中探索token级别的预算控制。
关键设计:两阶段预测器是关键设计之一,它由两个分类器组成:第一个分类器判断是否需要LLM提示,第二个分类器预测需要多少个token。这两个分类器可以联合训练,以优化整体性能。损失函数的设计需要考虑成本和准确率之间的权衡。此外,提示的长度(token数量)也是一个重要的超参数,需要根据具体任务进行调整。
🖼️ 关键图片
📊 实验亮点
实验结果表明,LLM Shepherding在GSM8K、CNK12、HumanEval和MBPP等基准测试中,相对于仅使用LLM的推理,降低了42-94%的成本。与最先进的路由和级联基线相比,在匹配准确性的前提下,实现了高达2.8倍的成本降低。即使LLM提示只占完整响应的10-30%,也能显著提高SLM的准确性。
🎯 应用场景
LLM Shepherding具有广泛的应用前景,例如在资源受限的环境中部署LLM应用,或者在需要高吞吐量的场景中降低推理成本。该方法可以应用于各种自然语言处理任务,如问答、文本生成、代码生成等。通过降低LLM的使用成本,可以促进LLM技术在更多领域的普及和应用。
📄 摘要(原文)
Large Language Models (LLMs) deliver state-of-the-art performance on complex reasoning tasks, but their inference costs limit deployment at scale. Small Language Models (SLMs) offer dramatic cost savings yet lag substantially in accuracy. Existing approaches - routing and cascading - treat the LLM as an all-or-nothing resource: either the query bypasses the LLM entirely, or the LLM generates a complete response at full cost. We introduce LLM Shepherding, a framework that requests only a short prefix (a hint) from the LLM and provides it to SLM. This simple mechanism is surprisingly effective for math and coding tasks: even hints comprising 10-30% of the full LLM response improve SLM accuracy significantly. Shepherding generalizes both routing and cascading, and it achieves lower cost under oracle decision-making. We develop a two-stage predictor that jointly determines whether a hint is needed and how many tokens to request. On the widely-used mathematical reasoning (GSM8K, CNK12) and code generation (HumanEval, MBPP) benchmarks, Shepherding reduces costs by 42-94% relative to LLM-only inference. Compared to state-of-the-art routing and cascading baselines, shepherding delivers up to 2.8x cost reduction while matching accuracy. To our knowledge, this is the first work to exploit token-level budget control for SLM-LLM collaboration.