Self-Training Elicits Concise Reasoning in Large Language Models
作者: Tergel Munkhbat, Namgyu Ho, Seo Hyun Kim, Yongjin Yang, Yujin Kim, Se-Young Yun
分类: cs.CL, cs.AI, cs.LG
发布日期: 2025-02-27 (更新: 2025-06-10)
备注: 26 pages, 10 figures, 23 tables. Accepted to Findings of ACL 2025
🔗 代码/项目: GITHUB
💡 一句话要点
自训练方法引导大语言模型进行更简洁的推理,降低计算成本
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 思维链推理 自训练 简洁推理 计算效率
📋 核心要点
- 现有思维链推理方法生成的推理路径包含大量冗余token,增加了计算成本。
- 论文提出一种自训练方法,通过best-of-N抽样和少样本学习,引导模型生成更简洁的推理路径。
- 实验表明,该方法在保持准确率的同时,显著减少了输出token数量,降低了推理成本。
📝 摘要(中文)
思维链(CoT)推理使得大型语言模型(LLMs)能够通过中间token利用额外的计算来解决复杂的任务。然而,我们认为典型的推理轨迹包含许多冗余token,从而导致不必要的推理成本。通过检查当前LLM的输出分布,我们发现了它们具有更简洁推理的潜在能力,相对于它们的默认行为。为了激发这种能力,我们提出了简单的微调方法,利用通过best-of-N抽样和少样本条件反射获得的自生成简洁推理路径,在特定任务设置中进行。我们的组合方法在GSM8K和MATH上,跨越五个模型系列,平均减少了30%的输出token,同时保持了平均准确率。通过利用LLM的基本随机性和上下文学习能力,我们的自训练方法能够稳健地激发各种模型(包括那些经过大量后训练的模型)的简洁推理能力。代码可在https://github.com/TergelMunkhbat/concise-reasoning获取。
🔬 方法详解
问题定义:论文旨在解决大型语言模型在进行思维链推理时产生冗余token的问题。现有方法生成的推理路径往往包含大量不必要的token,导致推理效率降低,计算成本增加。因此,如何引导LLM生成更简洁、高效的推理路径是本文要解决的核心问题。
核心思路:论文的核心思路是利用LLM自身的能力,通过自训练的方式,使其学习生成更简洁的推理路径。具体来说,通过best-of-N抽样,从多个候选推理路径中选择最优的简洁路径,并利用少样本学习,引导模型学习生成类似的简洁推理。这种方法无需人工标注数据,而是利用模型自身的生成能力,降低了训练成本。
技术框架:整体框架包含以下几个主要阶段:1) 使用原始LLM进行推理,并进行best-of-N抽样,生成多个候选推理路径。2) 从候选路径中选择token数量最少的路径作为简洁推理路径。3) 使用原始问题和简洁推理路径作为训练数据,对LLM进行微调。4) 在新的问题上进行推理,验证简洁推理的效果。
关键创新:论文的关键创新在于提出了一种基于自训练的简洁推理方法。与传统的思维链推理方法相比,该方法能够显著减少输出token数量,降低推理成本,同时保持准确率。此外,该方法无需人工标注数据,而是利用模型自身的生成能力,降低了训练成本。
关键设计:论文的关键设计包括:1) 使用best-of-N抽样,从多个候选推理路径中选择最优的简洁路径。2) 使用少样本学习,引导模型学习生成类似的简洁推理。3) 使用原始问题和简洁推理路径作为训练数据,对LLM进行微调。具体参数设置未知,论文中可能未详细描述。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在GSM8K和MATH数据集上,跨越五个模型系列,平均减少了30%的输出token,同时保持了平均准确率。这表明该方法能够有效地引导LLM进行更简洁的推理,降低计算成本。具体的模型系列和基线模型性能数据未知,需要在论文中查找。
🎯 应用场景
该研究成果可应用于各种需要进行复杂推理的任务,例如数学问题求解、代码生成、知识图谱推理等。通过降低推理成本,可以提高LLM在资源受限环境下的应用能力,例如移动设备或边缘计算设备。此外,该方法还可以用于提高LLM的推理速度,使其能够更快地响应用户请求。
📄 摘要(原文)
Chain-of-thought (CoT) reasoning has enabled large language models (LLMs) to utilize additional computation through intermediate tokens to solve complex tasks. However, we posit that typical reasoning traces contain many redundant tokens, incurring extraneous inference costs. Upon examination of the output distribution of current LLMs, we find evidence on their latent ability to reason more concisely, relative to their default behavior. To elicit this capability, we propose simple fine-tuning methods which leverage self-generated concise reasoning paths obtained by best-of-N sampling and few-shot conditioning, in task-specific settings. Our combined method achieves a 30% reduction in output tokens on average, across five model families on GSM8K and MATH, while maintaining average accuracy. By exploiting the fundamental stochasticity and in-context learning capabilities of LLMs, our self-training approach robustly elicits concise reasoning on a wide range of models, including those with extensive post-training. Code is available at https://github.com/TergelMunkhbat/concise-reasoning