TinyThinker: Distilling Reasoning through Coarse-to-Fine Knowledge Internalization with Self-Reflection

作者: Shengmin Piao, Sanghyun Park

分类: cs.CL

发布日期: 2024-12-11 (更新: 2025-02-04)

备注: Accepted by NAACL 2025 Main Conference

🔗 代码/项目: GITHUB

💡 一句话要点

TinyThinker：通过粗细粒度知识内化和自反思蒸馏小型模型推理能力

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 知识蒸馏 常识推理 语言模型 自反思学习 知识内化

📋 核心要点

现有方法直接在合成推理数据上训练小型模型，导致模型仅模仿推理过程，缺乏对底层知识的真正理解。
TinyThinker通过粗细粒度知识内化和自反思机制，引导学生模型逐步学习推理过程，并整合相关知识。
实验表明，TinyThinker在常识推理基准上优于现有方法，消融实验验证了各组件的有效性。

📝 摘要（中文）

大型语言模型在各种任务中展现出令人印象深刻的推理能力，这促使人们努力通过生成的推理数据将这些能力提炼到更小的模型中。然而，直接在这些合成的推理数据上进行训练可能导致对推理过程的表面模仿，而不是真正将推理能力与底层知识相结合。为了解决这个问题，我们提出了TinyThinker框架，引入了两种新颖的方法。首先，我们引入了一个三阶段过程，逐步引导学生模型完成推理过程，逐步细化从粗到细粒度的知识。其次，我们开发了一个两阶段训练框架，包括一个初始的推理获取阶段，然后是一个利用自生成数据的自反思阶段。在常识推理基准上的实验表明，TinyThinker与基线相比取得了优异的性能。消融研究进一步验证了我们框架中每个组件的有效性。我们期望TinyThinker可以扩展到其他知识密集型推理任务，为在较小语言模型中开发有效的推理能力提供另一种策略。

🔬 方法详解

问题定义：现有方法试图通过蒸馏大型语言模型的推理能力到小型模型，但直接在大型模型生成的推理数据上训练小型模型，会导致小型模型仅仅模仿大型模型的推理过程，而无法真正理解和运用相关的知识。这种方法缺乏对知识的有效内化，使得小型模型在面对新的或复杂的推理问题时表现不佳。

核心思路：TinyThinker的核心思路是通过一个由粗到细的知识内化过程和一个自反思机制，引导学生模型逐步学习推理过程，并将其与底层知识相结合。这种方法旨在使学生模型不仅能够模仿推理步骤，而且能够真正理解推理背后的逻辑和知识，从而提高其泛化能力。

技术框架：TinyThinker框架包含两个主要部分：一个三阶段的知识内化过程和一个两阶段的训练框架。知识内化过程包括：(1) 粗粒度知识学习，(2) 中粒度知识提炼，(3) 细粒度知识整合。两阶段训练框架包括：(1) 推理获取阶段，使用大型模型生成的推理数据进行训练；(2) 自反思阶段，学生模型生成自己的数据，并利用这些数据进行自我改进。

关键创新：TinyThinker的关键创新在于其粗细粒度知识内化过程和自反思机制。粗细粒度知识内化过程允许学生模型逐步学习和整合知识，避免了直接学习复杂推理过程的困难。自反思机制则允许学生模型通过自我生成数据和自我评估来不断改进其推理能力。与现有方法相比，TinyThinker更注重知识的内化和模型的自我改进。

关键设计：TinyThinker的关键设计包括：(1) 三阶段知识内化过程的具体实现，例如，如何定义粗、中、细粒度知识，以及如何设计相应的学习目标；(2) 自反思阶段的数据生成策略，例如，如何生成高质量的自我反思数据；(3) 损失函数的设计，例如，如何平衡推理获取阶段和自反思阶段的损失，以及如何鼓励学生模型学习和整合知识。具体的参数设置和网络结构细节在论文中可能有所描述，但摘要中未提及。

🖼️ 关键图片

📊 实验亮点

TinyThinker在常识推理基准测试中表现出色，显著优于现有基线方法。具体性能数据和提升幅度在摘要中未给出，但消融实验验证了粗细粒度知识内化和自反思机制的有效性，表明每个组件都对整体性能提升做出了贡献。

🎯 应用场景

TinyThinker具有广泛的应用前景，可用于开发各种知识密集型推理任务的小型语言模型，例如常识推理、问答系统、文本摘要等。该方法可以降低模型部署的计算成本和能源消耗，使其更适用于资源受限的环境。此外，TinyThinker还可以促进对人类推理过程的理解，并为开发更智能的AI系统提供新的思路。

📄 摘要（原文）

Large Language Models exhibit impressive reasoning capabilities across diverse tasks, motivating efforts to distill these capabilities into smaller models through generated reasoning data. However, direct training on such synthesized reasoning data may lead to superficial imitation of reasoning process, rather than fostering a genuine integration of reasoning capabilities with underlying knowledge. To address this, we propose TinyThinker, a framework introducing two novel approaches. First, we introduce a three-stage process that incrementally guides the student model through the reasoning process, progressively refining knowledge from coarse to fine granularity. Second, we develop a two-phase training framework comprising an initial reasoning acquisition phase followed by a self-reflection phase utilizing self-generated data. Experiments on commonsense reasoning benchmarks demonstrate that TinyThinker achieves superior performance compared to baselines. Ablation studies further validate the effectiveness of each component in our framework. We expect that TinyThinker can be extended to other knowledge-intensive reasoning tasks, offering an alternative strategy for developing effective reasoning capabilities in smaller language models. Codes are available at https://github.com/shengminp/TinyThinker

TinyThinker: Distilling Reasoning through Coarse-to-Fine Knowledge Internalization with Self-Reflection

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理