Merlin's Whisper: Enabling Efficient Reasoning in Large Language Models via Black-box Persuasive Prompting

作者: Heming Xia, Cunxiao Du, Rui Li, Chak Tou Leong, Yongqi Li, Wenjie Li

分类: cs.CL, cs.LG

发布日期: 2025-10-12 (更新: 2026-01-06)

💡 一句话要点

提出Whisper：通过黑盒诱导提示提升大语言模型推理效率

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 推理效率 提示工程 黑盒优化 诱导提示

📋 核心要点

现有大型推理模型计算和延迟开销大，阻碍了实际部署。
Whisper通过黑盒诱导提示，引导模型生成简洁响应，同时保证准确性。
实验表明，Whisper显著减少token使用，同时保持或提升模型性能。

📝 摘要（中文）

大型推理模型（LRM）在解决复杂任务方面表现出卓越的能力，这得益于其逐步思考的过程。然而，这种冗长的推理过程带来了巨大的计算和延迟开销，阻碍了LRM的实际部署。本文提出了一种通过黑盒诱导提示来缓解LRM过度思考的新方法。通过将LRM视为黑盒通信器，我们研究如何诱导它们生成简洁的响应而不影响准确性。我们引入了Whisper，一个迭代改进框架，可以从不同角度生成高质量的诱导提示。在多个基准测试上的实验表明，Whisper始终如一地减少了token的使用，同时保持了性能。值得注意的是，Whisper在Qwen3模型系列的简单GSM8K问题上实现了平均3倍的响应长度减少，并在所有基准测试中平均减少了约40%的token。对于闭源API，Whisper将Claude-3.7在MATH-500上的token使用量减少了46%，将Gemini-2.5减少了50%。进一步的分析表明，Whisper在数据领域、模型规模和系列中具有广泛的适用性，突显了黑盒诱导提示作为提高LRM效率的实用策略的潜力。

🔬 方法详解

问题定义：大型语言模型（LLM）在复杂推理任务中表现出色，但其逐步推理过程导致计算和延迟成本高昂，限制了实际应用。现有的方法通常侧重于模型架构优化或知识蒸馏，但忽略了通过提示工程直接影响模型推理过程的可能性。

核心思路：将LLM视为黑盒通信器，通过精心设计的“诱导提示”（persuasive prompts）来引导模型生成更简洁、高效的响应，而无需修改模型本身。核心在于找到能够有效说服模型减少冗余推理步骤的提示。

技术框架：Whisper是一个迭代优化框架，用于生成高质量的诱导提示。它包含以下主要阶段：1) 从不同角度生成多个候选提示；2) 使用LLM评估这些提示的有效性（例如，响应长度、准确性）；3) 基于评估结果，通过迭代改进提示，例如使用遗传算法或强化学习，最终得到能够有效减少token使用并保持性能的提示。

关键创新：Whisper的关键创新在于其黑盒诱导提示的思想，它将提示工程视为一种“说服”LLM的方式，而不是简单地提供信息或指令。这种方法避免了对模型内部结构的修改，使其具有广泛的适用性。

关键设计：Whisper框架的关键设计包括：1) 提示生成策略的多样性，确保探索不同的诱导方向；2) 评估指标的选择，需要同时考虑响应的简洁性和准确性；3) 迭代优化算法的选择，需要在探索和利用之间进行平衡。具体的参数设置和损失函数取决于所使用的优化算法（如遗传算法或强化学习）。

🖼️ 关键图片

📊 实验亮点

Whisper在多个基准测试中表现出色。在GSM8K数据集上，对于Qwen3模型系列，Whisper实现了平均3倍的响应长度减少。在所有基准测试中，平均token减少约40%。对于闭源API，Whisper将Claude-3.7在MATH-500上的token使用量减少了46%，将Gemini-2.5减少了50%。这些结果表明，Whisper能够有效提高LLM的推理效率，同时保持或提升性能。

🎯 应用场景

该研究成果可广泛应用于需要高效推理的场景，例如移动设备上的智能助手、低延迟的在线问答系统、以及资源受限的边缘计算环境。通过减少token使用量，可以显著降低API调用成本，并提高响应速度，从而提升用户体验和系统效率。未来，该方法有望扩展到更复杂的推理任务和更多种类的LLM。

📄 摘要（原文）

Large reasoning models (LRMs) have demonstrated remarkable proficiency in tackling complex tasks through step-by-step thinking. However, this lengthy reasoning process incurs substantial computational and latency overheads, hindering the practical deployment of LRMs. This work presents a new approach to mitigating overthinking in LRMs via black-box persuasive prompting. By treating LRMs as black-box communicators, we investigate how to persuade them to generate concise responses without compromising accuracy. We introduce Whisper, an iterative refinement framework that generates high-quality persuasive prompts from diverse perspectives. Experiments across multiple benchmarks demonstrate that Whisper consistently reduces token usage while preserving performance. Notably, Whisper achieves a 3x reduction in average response length on simple GSM8K questions for the Qwen3 model series and delivers an average ~40% token reduction across all benchmarks. For closed-source APIs, Whisper reduces token usage on MATH-500 by 46% for Claude-3.7 and 50% for Gemini-2.5. Further analysis reveals the broad applicability of Whisper across data domains, model scales, and families, underscoring the potential of black-box persuasive prompting as a practical strategy for enhancing LRM efficiency.

Merlin's Whisper: Enabling Efficient Reasoning in Large Language Models via Black-box Persuasive Prompting

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理