Dipper: Diversity in Prompts for Producing Large Language Model Ensembles in Reasoning tasks

作者: Gregory Kang Ruey Lau, Wenyang Hu, Diwen Liu, Jizhuo Chen, See-Kiong Ng, Bryan Kian Hsiang Low

分类: cs.CL, cs.AI, cs.LG, cs.MA

发布日期: 2024-12-12 (更新: 2025-10-24)

备注: Accepted to EMNLP 2025 Main Conference

💡 一句话要点

DIPPER：通过多样化Prompt生成大语言模型推理集成，提升小模型性能

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 推理 Prompt工程 集成学习 多样性 并行计算 零样本学习

📋 核心要点

现有LLM推理方法依赖顺序查询，效率较低，且小模型在复杂推理任务中表现不足。
DIPPER通过优化和多样化的Prompt集合，并行引导LLM产生不同的推理路径，形成集成。
实验表明，DIPPER在MATH等推理基准上显著提升性能，甚至超越更大的模型。

📝 摘要（中文）

大型语言模型（LLMs），尤其是较小的变体，在复杂的推理任务中仍然面临挑战。虽然推理时Prompt可以指导推理，但现有方法通常依赖于顺序查询。集成方法为性能提升提供了一条有希望的途径，尤其是在最近批处理推理加速的情况下。本研究提出了DIPPER，一种新颖的、无需训练的框架，可以将单个LLM转换为有效的推理时集成。通过并行地向模型输入一组优化且多样化的Prompt，DIPPER引出不同的推理路径，从而带来性能提升。我们通过实验证明了在推理基准测试（如MATH）上的显著改进，其中三个Qwen2-MATH-1.5B实例的DIPPER集成（通过单个模型的并行Prompt）优于更大的7B模型。

🔬 方法详解

问题定义：论文旨在解决小型语言模型在复杂推理任务中表现不佳的问题。现有方法，如链式思考（Chain-of-Thought, CoT），通常依赖于单个或顺序的Prompt，无法充分挖掘模型的推理能力，且计算效率较低。此外，这些方法对Prompt的设计非常敏感，需要大量的人工调整。

核心思路：DIPPER的核心思路是利用Prompt的多样性来提升模型的推理能力。通过并行地向模型输入一组精心设计且互不相同的Prompt，DIPPER鼓励模型探索不同的推理路径，并将这些路径的结果进行集成，从而提高整体的准确性和鲁棒性。这种方法类似于集成学习中的模型多样性，旨在减少单个模型的偏差。

技术框架：DIPPER框架主要包含以下几个阶段：1) Prompt生成：生成一组多样化的Prompt，这些Prompt在语义上有所差异，但都旨在引导模型解决同一个问题。2) 并行推理：将生成的Prompt并行地输入到LLM中，得到多个不同的推理结果。3) 结果集成：将多个推理结果进行集成，得到最终的答案。集成的策略可以是简单的投票，也可以是更复杂的加权平均。

关键创新：DIPPER的关键创新在于它利用了Prompt的多样性来模拟集成学习的效果，而无需训练多个模型。与传统的集成方法相比，DIPPER只需要一个LLM实例，通过并行Prompt的方式即可实现性能提升，大大降低了计算成本。此外，DIPPER是一种无需训练的方法，可以直接应用于现有的LLM，无需进行额外的微调。

关键设计：DIPPER的关键设计在于Prompt的生成策略。论文中可能采用了某种算法或启发式方法来生成多样化的Prompt，例如，通过改变Prompt的措辞、结构或侧重点来引入差异。此外，结果集成的策略也会影响最终的性能，例如，可以根据每个Prompt的置信度或历史表现来调整其权重。

🖼️ 关键图片

📊 实验亮点

DIPPER在MATH等推理基准测试中取得了显著的性能提升。例如，仅使用三个Qwen2-MATH-1.5B实例的DIPPER集成，通过并行Prompt的方式，就超越了更大的7B模型。这表明DIPPER能够有效地利用Prompt的多样性来提升模型的推理能力，并且在计算资源有限的情况下也能取得优异的结果。

🎯 应用场景

DIPPER可广泛应用于需要复杂推理能力的场景，如数学问题求解、代码生成、知识问答等。该方法能够提升小型语言模型在资源受限环境下的性能，降低部署成本。未来，DIPPER可以与其他推理增强技术结合，进一步提升LLM的推理能力和泛化性，并应用于教育、金融、医疗等领域。

📄 摘要（原文）

Large Language Models (LLMs), particularly smaller variants, still struggle with complex reasoning tasks. While inference-time prompting can guide reasoning, existing methods often rely on sequential queries. Ensemble approaches offer a promising path to performance gains, especially given recent batch inference speed-ups. This work introduces DIPPER, a novel, training-free framework that transforms a single LLM into an effective inference-time ensemble. By feeding the model an optimized and diverse set of prompts in parallel, DIPPER elicits varied reasoning paths, leading to performance gains. We empirically demonstrate significant improvements on reasoning benchmarks, such as MATH, where a DIPPER ensemble of three Qwen2-MATH-1.5B instances (via parallel prompting of a single model) outperforms a larger 7B model.

Dipper: Diversity in Prompts for Producing Large Language Model Ensembles in Reasoning tasks

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理