Hán Dān Xué Bù (Mimicry) or Qīng Chū Yú Lán (Mastery)? A Cognitive Perspective on Reasoning Distillation in Large Language Models

📄 arXiv: 2601.05019v1 📥 PDF

作者: Yueqing Hu, Xinyang Peng, Shuting Peng, Hanqi Wang, Tianhong Wang

分类: cs.CL, cs.AI, q-bio.NC

发布日期: 2026-01-08

备注: 7 pages, 7 figures


💡 一句话要点

推理蒸馏无法有效传递大语言模型的认知结构,导致功能对齐崩溃

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 推理蒸馏 监督微调 认知对齐 功能对齐崩溃

📋 核心要点

  1. 现有推理蒸馏方法(SFT)无法有效传递大型推理模型中与人类认知成本对齐的认知结构。
  2. 论文核心思想是推理蒸馏会导致“功能对齐崩溃”,学生模型仅模仿表面形式,未能学习内在的认知资源分配策略。
  3. 实验结果表明,蒸馏后的学生模型在认知对齐方面显著退化,甚至不如蒸馏前的基线模型,出现负迁移现象。

📝 摘要(中文)

最近通过强化学习训练的大型推理模型表现出与人类认知成本的“自然”对齐。然而,我们发现,目前流行的推理蒸馏范式——通过监督微调(SFT)训练学生模型来模仿这些轨迹——未能传递这种认知结构。通过对14个模型进行“邯郸学步”(表面模仿)假设的测试,我们发现蒸馏会导致“功能对齐崩溃”:虽然教师模型反映了人类难度等级($\bar{r}=0.64$),但蒸馏后的学生模型显著降低了这种对齐($\bar{r}=0.34$),通常表现不如它们自己的预蒸馏基线(“负迁移”)。我们的分析表明,SFT诱导了一种“货物崇拜”效应,学生模型程式化地复制推理的语言形式(冗长),而没有内化教师模型的动态资源分配策略。因此,推理蒸馏将计算成本与认知需求脱钩,揭示了类人认知是主动强化学习的一种涌现属性,而不是被动模仿。

🔬 方法详解

问题定义:现有的大语言模型推理蒸馏方法,特别是基于监督微调(SFT)的方法,虽然能够让学生模型模仿教师模型的推理过程,但未能有效传递教师模型中与人类认知成本对齐的认知结构。这种方法的痛点在于,学生模型可能只是在表面上模仿教师模型的推理过程,而没有真正理解其内在的认知资源分配策略,导致模型在处理复杂推理问题时表现不佳。

核心思路:论文的核心解决思路是指出SFT方法在推理蒸馏中存在“货物崇拜”效应,即学生模型只是机械地复制教师模型的推理形式,而没有学习到其内在的认知资源分配策略。因此,论文认为,类人认知是主动强化学习的一种涌现属性,而不是被动模仿的结果。

技术框架:论文通过实验分析了14个模型,包括教师模型和通过SFT蒸馏得到的学生模型。实验主要关注模型在推理过程中与人类认知成本的对齐程度。具体来说,论文使用相关系数($\bar{r}$)来衡量模型难度等级与人类难度等级之间的相关性。通过比较教师模型和学生模型的$\bar{r}$值,可以评估蒸馏是否成功传递了认知结构。

关键创新:论文最重要的技术创新点在于揭示了推理蒸馏中的“功能对齐崩溃”现象,并提出了“货物崇拜”效应的解释。这表明,仅仅通过模仿教师模型的推理过程,无法让学生模型获得与人类认知成本对齐的认知结构。

关键设计:论文的关键设计在于使用相关系数($\bar{r}$)来量化模型难度等级与人类难度等级之间的相关性。通过比较教师模型和学生模型的$\bar{r}$值,可以有效地评估蒸馏是否成功传递了认知结构。此外,论文还分析了学生模型在蒸馏后出现负迁移现象的原因,并提出了可能的改进方向。

📊 实验亮点

实验结果表明,教师模型与人类难度等级的相关性为$\bar{r}=0.64$,而蒸馏后的学生模型的相关性显著降低至$\bar{r}=0.34$,表明蒸馏导致了功能对齐崩溃。更重要的是,学生模型的性能通常不如蒸馏前的基线模型,出现了负迁移现象,进一步验证了SFT方法在推理蒸馏中的局限性。

🎯 应用场景

该研究成果对大语言模型的推理能力提升具有重要意义。未来的研究可以探索更有效的蒸馏方法,例如通过强化学习或对比学习等方式,让学生模型更好地学习教师模型的认知资源分配策略,从而提高模型的推理能力和泛化能力。此外,该研究还可以应用于其他认知任务,例如问题解决、决策制定等。

📄 摘要(原文)

Recent Large Reasoning Models trained via reinforcement learning exhibit a "natural" alignment with human cognitive costs. However, we show that the prevailing paradigm of reasoning distillation -- training student models to mimic these traces via Supervised Fine-Tuning (SFT) -- fails to transmit this cognitive structure. Testing the "Hán Dān Xué Bù" (Superficial Mimicry) hypothesis across 14 models, we find that distillation induces a "Functional Alignment Collapse": while teacher models mirror human difficulty scaling ($\bar{r}=0.64$), distilled students significantly degrade this alignment ($\bar{r}=0.34$), often underperforming their own pre-distillation baselines ("Negative Transfer"). Our analysis suggests that SFT induces a "Cargo Cult" effect, where students ritualistically replicate the linguistic form of reasoning (verbosity) without internalizing the teacher's dynamic resource allocation policy. Consequently, reasoning distillation decouples computational cost from cognitive demand, revealing that human-like cognition is an emergent property of active reinforcement, not passive imitation.