Fine-Tuning on Diverse Reasoning Chains Drives Within-Inference CoT Refinement in LLMs

📄 arXiv: 2407.03181v2 📥 PDF

作者: Haritz Puerto, Tilek Chubakov, Xiaodan Zhu, Harish Tayyar Madabushi, Iryna Gurevych

分类: cs.CL

发布日期: 2024-07-03 (更新: 2025-05-27)

备注: ACL 2025 Main

🔗 代码/项目: GITHUB


💡 一句话要点

通过多样化推理链微调,提升LLM在单次推理中的CoT精炼能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 链式思考 推理精炼 多样化推理链 微调 自我改进

📋 核心要点

  1. 现有CoT方法侧重于生成多个独立的推理链,并通过集成等策略来增强推理,但效率和效果存在提升空间。
  2. 论文提出DCoT方法,通过微调LLM使其在单次推理中生成多样化的推理链,实现推理过程的内部精炼。
  3. 实验结果表明,DCoT微调在多种推理任务上优于CoT基线,尤其在结果状态空间大的任务中提升显著。

📝 摘要(中文)

本文提出了一种新颖的方法,通过微调大型语言模型(LLM),使其在单个推理步骤中生成一系列多样化的推理链(DCoT),这与以往主要基于并行CoT生成的工作有着根本区别。DCoT使LLM能够执行推理链的内部精炼,而无需外部反馈。通过对各种需要不同推理类型的任务进行严格的实验,结果表明,在DCoT上进行微调可以提高各种模型系列和规模(1.3B到70B)的性能,优于CoT基线。这些改进对于具有较大结果状态空间的任务(例如涉及数字答案的任务)尤其有效。定量分析和人工评估表明,观察到的收益源于模型通过在同一推理步骤中生成第二个改进的链来完善初始推理链的能力,从而展示了先前难以实现的自我改进。

🔬 方法详解

问题定义:现有Chain-of-Thought (CoT) 方法通常生成多个独立的推理链,然后通过集成或后处理策略来提高性能。这种方法的痛点在于计算成本高昂,且难以在推理过程中进行有效的自我修正和优化。模型难以利用已生成的推理链信息来改进后续的推理步骤。

核心思路:论文的核心思路是让LLM在单次推理过程中生成一系列多样化的推理链 (Diverse Chains of Thought, DCoT),从而实现推理过程的内部精炼。通过在生成后续推理链时利用之前链的信息,模型可以逐步修正错误,提高推理的准确性。这种方法模拟了人类在解决复杂问题时不断反思和改进思路的过程。

技术框架:DCoT 的整体框架是在标准 CoT 的基础上进行改进。首先,使用标准的 CoT 提示方法生成初始的推理链。然后,在同一个推理过程中,模型继续生成多个不同的推理链,每个链都受到之前链的影响。这些链之间存在依赖关系,形成一个序列。最终,选择最佳的推理链作为最终答案。整个过程不需要外部反馈或额外的训练数据,只需要在微调阶段使用 DCoT 数据进行训练。

关键创新:最重要的技术创新点在于将多个推理链的生成过程整合到单次推理中,实现了推理过程的内部精炼。与以往的并行 CoT 生成方法不同,DCoT 允许模型在推理过程中利用已生成的推理链信息来改进后续的推理步骤,从而实现自我修正和优化。这种方法更符合人类的推理方式,也更有效地利用了模型的计算资源。

关键设计:DCoT 的关键设计在于如何生成多样化的推理链,并有效地利用这些链之间的信息。论文通过在微调阶段使用特定的数据增强策略来生成 DCoT 数据。例如,可以对原始的推理链进行随机扰动,或者使用不同的提示方法来生成不同的推理链。在推理过程中,可以使用不同的解码策略(如 Top-K sampling 或 Nucleus sampling)来增加推理链的多样性。此外,还可以设计特定的损失函数来鼓励模型生成多样化且准确的推理链。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,在多种推理任务上,DCoT微调显著优于CoT基线。例如,在某些需要数值推理的任务上,DCoT可以将准确率提高10%以上。此外,实验还表明,DCoT在不同规模的模型上都有效,从1.3B到70B的模型都获得了性能提升。人工评估也证实,DCoT能够生成更准确、更连贯的推理链。

🎯 应用场景

该研究成果可广泛应用于需要复杂推理能力的自然语言处理任务中,例如数学问题求解、常识推理、知识图谱推理等。通过提高LLM的推理准确性和效率,可以提升智能客服、智能助手等应用的性能,并为开发更强大的通用人工智能系统奠定基础。该方法在医疗诊断、金融分析等专业领域也具有潜在的应用价值。

📄 摘要(原文)

Requiring a large language model (LLM) to generate intermediary reasoning steps, known as Chain of Thought (CoT), has been shown to be an effective way of boosting performance. Previous approaches have focused on generating multiple independent CoTs, combining them through ensembling or other post-hoc strategies to enhance reasoning. In this work, we introduce a novel approach where LLMs are fine-tuned to generate a sequence of Diverse Chains of Thought (DCoT) within a single inference step, which is fundamentally different from prior work that primarily operate on parallel CoT generations. DCoT allows LLMs to gain the ability to perform within-inference refinement of reasoning chains without requiring external feedback. Through a rigorous set of experiments spanning a wide range of tasks that require various reasoning types, we show that fine-tuning on DCoT improves performance over the CoT baseline across model families and scales (1.3B to 70B). These improvements are particularly impactful for tasks with a large result state space, such as those involving numeric answers. Our work is also significant because both quantitative analyses and manual evaluations reveal the observed gains stem from the models' ability to refine an initial reasoning chain by generating a second, improved chain within the same inference step, demonstrating previously elusive self-improvement. Our code and data are publicly available at https://github.com/UKPLab/acl2025-diverse-cot.