Self-Reasoning Language Models: Unfold Hidden Reasoning Chains with Few Reasoning Catalyst

📄 arXiv: 2505.14116v1 📥 PDF

作者: Hongru Wang, Deng Cai, Wanjun Zhong, Shijue Huang, Jeff Z. Pan, Zeming Liu, Kam-Fai Wong

分类: cs.CL

发布日期: 2025-05-20


💡 一句话要点

提出自推理语言模型(SRLM),通过少量推理催化剂迭代提升复杂推理能力。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 自推理语言模型 思维链 自训练 推理催化剂 复杂推理 大语言模型 迭代学习

📋 核心要点

  1. 现有大语言模型在复杂推理任务中依赖增加CoT长度来提升性能,但人工构建长CoT数据成本高昂。
  2. SRLM通过自训练,利用少量示例作为推理催化剂,使模型能够自主合成更长的CoT数据,迭代提升推理能力。
  3. 实验表明,SRLM在多个推理任务上取得了显著提升,尤其是在增加采样次数的情况下,性能提升更为明显。

📝 摘要(中文)

本文提出自推理语言模型(SRLM),该模型能够合成更长的思维链(CoT)数据,并通过自训练迭代提升性能。SRLM利用少量示例(1000个样本)作为推理催化剂,示范如何从现有响应中展开隐藏的推理链。实验表明,SRLM不仅提高了模型的初始性能,而且确保了后续迭代中更稳定和一致的改进。在MMLU、GSM8K、ARC-C、HellaSwag和BBH五个推理任务上,SRLM在两个backbone模型上实现了平均超过+2.5个百分点的绝对提升。此外,随着推理时采样次数的增加,SRLM带来了更大的改进,例如在64次采样时,平均绝对提升达到+7.89,揭示了SRLM相对于强基线模型更深入、多样化和创造性的推理路径。

🔬 方法详解

问题定义:现有大语言模型在复杂推理任务中,需要更长的思维链(Chain-of-Thought, CoT)来提升性能。然而,人工构建这些更长的、包含反思和分解等元推理技巧的CoT数据非常困难且成本高昂。因此,如何让模型自主生成高质量的CoT数据,从而提升推理能力,是一个亟待解决的问题。

核心思路:SRLM的核心思路是让模型通过自训练,学习如何从现有的(可能较短或不完整的)推理过程中“展开”更长的、更深入的推理链。通过提供少量示例,作为“推理催化剂”,引导模型学习如何进行更复杂的推理过程。这种自训练的方式可以避免人工标注大量CoT数据的成本,并使模型能够自主探索更丰富的推理路径。

技术框架:SRLM的整体框架包含以下几个主要步骤:1) 使用少量人工标注的CoT数据作为推理催化剂,训练SRLM模型。2) 使用训练好的SRLM模型,对现有数据集中的问题进行推理,生成更长的CoT数据。3) 将生成的CoT数据与原始数据混合,用于进一步训练SRLM模型。4) 重复步骤2和3,进行迭代自训练,不断提升模型的推理能力。

关键创新:SRLM的关键创新在于其自推理和自训练的框架。与传统的依赖人工标注CoT数据的方法不同,SRLM能够自主生成CoT数据,并通过迭代训练不断提升推理能力。这种方法降低了对人工标注数据的依赖,并使模型能够探索更广泛的推理路径。

关键设计:SRLM的关键设计包括:1) 推理催化剂:使用少量高质量的CoT数据作为初始引导,帮助模型学习如何展开推理链。2) 自训练迭代:通过多次迭代,模型不断生成新的CoT数据,并利用这些数据进行训练,从而逐步提升推理能力。3) 采样策略:在推理时,通过多次采样,探索不同的推理路径,并选择最优的答案。论文中提到,增加采样次数可以显著提升SRLM的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,SRLM在MMLU、GSM8K、ARC-C、HellaSwag和BBH五个推理任务上取得了显著提升。在两个backbone模型上,SRLM实现了平均超过+2.5个百分点的绝对提升。更重要的是,随着推理时采样次数的增加,SRLM带来了更大的改进,例如在64次采样时,平均绝对提升达到+7.89,表明SRLM能够探索更深入、多样化和创造性的推理路径。

🎯 应用场景

SRLM具有广泛的应用前景,可应用于问答系统、数学问题求解、常识推理等领域。通过自主生成推理链,SRLM能够提升模型在复杂任务中的表现,并降低对人工标注数据的依赖。未来,SRLM有望应用于智能客服、教育辅导等领域,提供更智能、更个性化的服务。

📄 摘要(原文)

Inference-time scaling has attracted much attention which significantly enhance the performance of Large Language Models (LLMs) in complex reasoning tasks by increasing the length of Chain-of-Thought. These longer intermediate reasoning rationales embody various meta-reasoning skills in human cognition, such as reflection and decomposition, being difficult to create and acquire. In this work, we introduce \textit{Self-Reasoning Language Model} (SRLM), where the model itself can synthesize longer CoT data and iteratively improve performance through self-training. By incorporating a few demonstration examples (i.e., 1,000 samples) on how to unfold hidden reasoning chains from existing responses, which act as a reasoning catalyst, we demonstrate that SRLM not only enhances the model's initial performance but also ensures more stable and consistent improvements in subsequent iterations. Our proposed SRLM achieves an average absolute improvement of more than $+2.5$ points across five reasoning tasks: MMLU, GSM8K, ARC-C, HellaSwag, and BBH on two backbone models. Moreover, it brings more improvements with more times of sampling during inference, such as absolute $+7.89$ average improvement with $64$ sampling times, revealing the in-depth, diverse and creative reasoning paths in SRLM against the strong baseline.