Hán Dān Xué Bù (Mimicry) or Qīng Chū Yú Lán (Mastery)? A Cognitive Perspective on Reasoning Distillation in Large Language Models

📄 arXiv: 2601.05019v1 📥 PDF

作者: Yueqing Hu, Xinyang Peng, Shuting Peng, Hanqi Wang, Tianhong Wang

分类: cs.CL, cs.AI, q-bio.NC

发布日期: 2026-01-08

备注: 7 pages, 7 figures


💡 一句话要点

推理蒸馏无法有效传递大语言模型的人类认知对齐特性

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 推理蒸馏 认知对齐 监督微调 强化学习 负迁移 货物崇拜

📋 核心要点

  1. 现有推理蒸馏方法(SFT)无法有效传递教师模型与人类认知成本的对齐特性。
  2. 论文核心在于揭示SFT蒸馏的“功能对齐崩溃”现象,并分析其根本原因。
  3. 实验表明,蒸馏后的学生模型在认知对齐方面表现显著下降,甚至出现负迁移。

📝 摘要(中文)

最近通过强化学习训练的大型推理模型展现出与人类认知成本的“自然”对齐。然而,我们发现目前流行的推理蒸馏范式——通过监督微调(SFT)训练学生模型来模仿这些推理轨迹——未能传递这种认知结构。通过对14个模型进行“邯郸学步”(表面模仿)假设的测试,我们发现蒸馏会导致“功能对齐崩溃”:教师模型能够反映人类的难度等级(平均相关系数为0.64),而蒸馏后的学生模型显著降低了这种对齐(平均相关系数为0.34),甚至表现不如蒸馏前的基线模型(“负迁移”)。我们的分析表明,SFT诱导了一种“货物崇拜”效应,学生模型机械地复制推理的语言形式(冗长的表达),而没有内化教师模型的动态资源分配策略。因此,推理蒸馏将计算成本与认知需求脱钩,揭示了类人认知是主动强化学习的涌现属性,而非被动模仿。

🔬 方法详解

问题定义:论文旨在解决推理蒸馏过程中,学生模型无法有效继承教师模型所具备的、与人类认知成本对齐的推理能力的问题。现有方法,即通过监督微调(SFT)模仿教师模型的推理轨迹,存在无法传递认知结构的痛点,导致学生模型在认知对齐方面表现不佳。

核心思路:论文的核心思路是指出SFT蒸馏是一种“货物崇拜”效应,学生模型仅仅模仿了教师模型的表面语言形式,而没有真正理解其内在的推理策略和资源分配机制。因此,简单地模仿推理轨迹并不能保证学生模型能够获得与人类认知对齐的能力。

技术框架:论文主要通过实验分析来验证其观点。首先,使用强化学习训练得到具有良好认知对齐的教师模型。然后,使用SFT方法对教师模型进行蒸馏,得到学生模型。最后,通过一系列认知对齐测试,比较教师模型、学生模型以及蒸馏前的基线模型在认知对齐方面的表现。

关键创新:论文最重要的创新点在于揭示了推理蒸馏中的“功能对齐崩溃”现象,并提出了“货物崇拜”效应的解释。这表明,仅仅通过模仿推理轨迹无法有效传递认知结构,类人认知是主动强化学习的涌现属性,而非被动模仿。

关键设计:论文的关键设计在于认知对齐测试的设计,通过精心设计的测试用例,能够有效衡量模型在不同难度等级下的表现,从而评估其与人类认知成本的对齐程度。此外,论文还分析了学生模型在推理过程中的冗余表达,进一步验证了“货物崇拜”效应。

📊 实验亮点

实验结果表明,教师模型具有较好的认知对齐能力(平均相关系数为0.64),而经过SFT蒸馏后的学生模型,其认知对齐能力显著下降(平均相关系数为0.34),甚至低于蒸馏前的基线模型。这一结果有力地支持了论文提出的“功能对齐崩溃”和“货物崇拜”效应的观点。

🎯 应用场景

该研究成果对大语言模型的推理能力提升具有重要指导意义,尤其是在知识蒸馏和模型对齐方面。未来的研究可以探索更有效的蒸馏方法,例如结合强化学习或对比学习,以更好地传递教师模型的认知结构和推理策略,从而提升学生模型的推理能力和认知对齐水平。该研究还有助于开发更符合人类认知习惯的智能系统。

📄 摘要(原文)

Recent Large Reasoning Models trained via reinforcement learning exhibit a "natural" alignment with human cognitive costs. However, we show that the prevailing paradigm of reasoning distillation -- training student models to mimic these traces via Supervised Fine-Tuning (SFT) -- fails to transmit this cognitive structure. Testing the "Hán Dān Xué Bù" (Superficial Mimicry) hypothesis across 14 models, we find that distillation induces a "Functional Alignment Collapse": while teacher models mirror human difficulty scaling ($\bar{r}=0.64$), distilled students significantly degrade this alignment ($\bar{r}=0.34$), often underperforming their own pre-distillation baselines ("Negative Transfer"). Our analysis suggests that SFT induces a "Cargo Cult" effect, where students ritualistically replicate the linguistic form of reasoning (verbosity) without internalizing the teacher's dynamic resource allocation policy. Consequently, reasoning distillation decouples computational cost from cognitive demand, revealing that human-like cognition is an emergent property of active reinforcement, not passive imitation.