Pay for Hints, Not Answers: LLM Shepherding for Cost-Efficient Inference

作者: Ziming Dong, Hardik Sharma, Evan O'Toole, Jaya Prakash Champati, Kui Wu

分类: cs.LG

发布日期: 2026-01-29

💡 一句话要点

提出LLM Shepherding框架，通过少量LLM提示指导SLM，实现成本效益更高的推理。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 小型语言模型 成本效益 推理优化 提示学习 模型协作 数学推理 代码生成

📋 核心要点

现有方法在LLM和SLM之间进行选择或级联，但未能充分利用LLM的知识，存在成本和效率的瓶颈。
LLM Shepherding通过向SLM提供来自LLM的少量提示，指导SLM进行推理，从而提高SLM的准确性。
实验表明，该方法在数学推理和代码生成任务中，显著降低了推理成本，同时保持或提高了准确性。

📝 摘要（中文）

大型语言模型（LLM）在复杂推理任务中表现出色，但其推理成本限制了大规模部署。小型语言模型（SLM）虽然显著降低了成本，但在准确性方面却大幅落后。现有的路由和级联方法将LLM视为非此即彼的资源：要么查询完全绕过LLM，要么LLM以全成本生成完整响应。我们引入了LLM Shepherding框架，该框架仅从LLM请求一个简短的前缀（提示），并将其提供给SLM。这种简单的机制在数学和编码任务中非常有效：即使提示仅占LLM完整响应的10-30%，也能显著提高SLM的准确性。Shepherding推广了路由和级联，并在oracle决策下实现了更低的成本。我们开发了一个两阶段预测器，它联合确定是否需要提示以及需要请求多少个token。在广泛使用的数学推理（GSM8K、CNK12）和代码生成（HumanEval、MBPP）基准测试中，相对于仅使用LLM的推理，Shepherding降低了42-94%的成本。与最先进的路由和级联基线相比，shepherding在匹配准确性的同时，实现了高达2.8倍的成本降低。据我们所知，这是第一项利用token级别预算控制进行SLM-LLM协作的工作。

🔬 方法详解

问题定义：现有方法要么完全依赖昂贵的LLM，要么完全依赖准确率较低的SLM。路由和级联方法虽然尝试结合两者，但未能充分利用LLM的知识，且成本控制粒度较粗，无法在token级别进行优化。因此，如何以最小的LLM成本，最大化SLM的性能，是一个亟待解决的问题。

核心思路：LLM Shepherding的核心思想是让LLM扮演“牧羊人”的角色，通过提供少量提示（hints）来引导SLM进行推理。即使是LLM生成的一小段文本，也可能包含关键信息，帮助SLM克服推理障碍，提高准确率。这种方法旨在以更细粒度的方式利用LLM的知识，实现成本和性能的平衡。

技术框架：LLM Shepherding框架包含以下几个主要阶段：1) 提示请求：根据输入，决定是否需要LLM的提示，以及需要多少个token的提示。这通过一个两阶段预测器实现。2) LLM提示生成：如果需要提示，则从LLM请求指定数量的token。3) SLM推理：将LLM生成的提示作为上下文，输入到SLM中进行推理。4) 结果评估：评估SLM的输出结果。

关键创新：该论文最重要的创新点在于引入了token级别的预算控制，允许根据具体任务动态调整LLM的使用量。与传统的路由和级联方法相比，LLM Shepherding能够更有效地利用LLM的知识，并在成本和性能之间取得更好的平衡。这是首次在SLM-LLM协作中探索token级别的预算控制。

关键设计：两阶段预测器是关键设计之一，它由两个分类器组成：第一个分类器判断是否需要LLM提示，第二个分类器预测需要多少个token。这两个分类器可以联合训练，以优化整体性能。损失函数的设计需要考虑成本和准确率之间的权衡。此外，提示的长度（token数量）也是一个重要的超参数，需要根据具体任务进行调整。

🖼️ 关键图片

📊 实验亮点

实验结果表明，LLM Shepherding在GSM8K、CNK12、HumanEval和MBPP等基准测试中，相对于仅使用LLM的推理，降低了42-94%的成本。与最先进的路由和级联基线相比，在匹配准确性的前提下，实现了高达2.8倍的成本降低。即使LLM提示只占完整响应的10-30%，也能显著提高SLM的准确性。

🎯 应用场景

LLM Shepherding具有广泛的应用前景，例如在资源受限的环境中部署LLM应用，或者在需要高吞吐量的场景中降低推理成本。该方法可以应用于各种自然语言处理任务，如问答、文本生成、代码生成等。通过降低LLM的使用成本，可以促进LLM技术在更多领域的普及和应用。

📄 摘要（原文）

Large Language Models (LLMs) deliver state-of-the-art performance on complex reasoning tasks, but their inference costs limit deployment at scale. Small Language Models (SLMs) offer dramatic cost savings yet lag substantially in accuracy. Existing approaches - routing and cascading - treat the LLM as an all-or-nothing resource: either the query bypasses the LLM entirely, or the LLM generates a complete response at full cost. We introduce LLM Shepherding, a framework that requests only a short prefix (a hint) from the LLM and provides it to SLM. This simple mechanism is surprisingly effective for math and coding tasks: even hints comprising 10-30% of the full LLM response improve SLM accuracy significantly. Shepherding generalizes both routing and cascading, and it achieves lower cost under oracle decision-making. We develop a two-stage predictor that jointly determines whether a hint is needed and how many tokens to request. On the widely-used mathematical reasoning (GSM8K, CNK12) and code generation (HumanEval, MBPP) benchmarks, Shepherding reduces costs by 42-94% relative to LLM-only inference. Compared to state-of-the-art routing and cascading baselines, shepherding delivers up to 2.8x cost reduction while matching accuracy. To our knowledge, this is the first work to exploit token-level budget control for SLM-LLM collaboration.

Pay for Hints, Not Answers: LLM Shepherding for Cost-Efficient Inference

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理