Enhancing Reasoning Abilities of Small LLMs with Cognitive Alignment

📄 arXiv: 2504.09802v2 📥 PDF

作者: Wenrui Cai, Chengyu Wang, Junbing Yan, Jun Huang, Xiangzhong Fang

分类: cs.CL, cs.AI

发布日期: 2025-04-14 (更新: 2025-11-03)

备注: emnlp 2025 main conference


💡 一句话要点

提出CRV+CogPO框架,提升小模型在复杂推理任务中的认知对齐能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 小型语言模型 推理能力 认知对齐 思维链 强化学习

📋 核心要点

  1. 现有方法直接蒸馏大型模型的CoT推理过程到小型模型,忽略了二者认知能力的差异,导致效果不佳且需要大量标注数据。
  2. 论文提出CRV系统,包含批判、反思、验证三个LLM Agent,分别负责评估、改进和确认CoT推理过程,以适应小型模型的认知能力。
  3. 论文进一步提出CogPO算法,通过认知偏好优化,持续提升小型模型的推理能力,实验结果表明该框架显著优于其他方法。

📝 摘要(中文)

大型推理模型(LRM),如OpenAI的o1和DeepSeek-R1,通过深度思考在推理能力上取得了显著进展。然而,这些提升伴随着巨大的资源需求,突显了训练有效的小型推理模型的必要性。一个关键的挑战是,小型模型与大型模型相比,具有不同的推理能力和认知轨迹。因此,直接将大型LRM的思维链(CoT)推理过程提炼到小型模型有时是无效的,并且通常需要大量的标注数据。在本文中,我们首先介绍了一种新颖的批判-反思-验证(CRV)系统,旨在训练更小但功能强大的LRM。我们的CRV系统由多个LLM代理组成,每个代理专门执行独特的任务:(i)根据小型模型的认知能力批判CoT推理过程,(ii)基于批判性意见反思和改进这些CoT,以及(iii)验证改进结果的正确性。在CRV系统的基础上,我们进一步提出了认知偏好优化(CogPO)算法,通过将小型模型的推理过程与其认知能力对齐,从而不断提高其推理能力。在具有挑战性的推理基准上的全面评估表明,我们的CRV+CogPO框架的有效性,其性能大大优于其他方法。

🔬 方法详解

问题定义:论文旨在解决小型语言模型(LLM)在复杂推理任务中表现不佳的问题。现有方法,如直接从大型模型蒸馏思维链(CoT),忽略了小型模型与大型模型之间认知能力的差异,导致蒸馏效果差,且需要大量标注数据。因此,如何使小型模型更好地理解和应用CoT推理,是本文要解决的核心问题。

核心思路:论文的核心思路是认知对齐,即让小型模型的推理过程与其自身的认知能力相匹配。通过构建一个多Agent系统,模拟人类的批判性思维过程,逐步改进和优化CoT推理,使其更适合小型模型的理解和执行。这种方法避免了直接复制大型模型的推理过程,而是引导小型模型学习更适合自身能力的推理方式。

技术框架:论文提出了CRV+CogPO框架。CRV(Critique-Rethink-Verify)系统包含三个LLM Agent:Critique Agent负责根据小型模型的认知能力批判CoT推理过程;Rethink Agent基于批判性意见反思和改进CoT;Verify Agent验证改进结果的正确性。CogPO(Cognitive Preference Optimization)算法则利用强化学习,通过奖励与小型模型认知能力对齐的推理过程,持续优化模型。整体流程是:首先使用CRV系统生成高质量的CoT数据,然后使用CogPO算法训练小型模型,使其学习到与自身认知能力相符的推理策略。

关键创新:论文的关键创新在于CRV系统和CogPO算法的结合。CRV系统通过多Agent协作,模拟了人类的批判性思维过程,能够生成更适合小型模型学习的CoT数据。CogPO算法则通过强化学习,引导小型模型学习与自身认知能力对齐的推理策略。这种方法避免了直接蒸馏大型模型的推理过程,而是让小型模型自主学习,从而提高了推理能力。

关键设计:CRV系统中,Critique Agent的设计需要仔细考虑小型模型的认知能力,例如可以限制其使用的词汇量或推理步骤。Rethink Agent需要具备较强的生成能力,能够根据批判性意见生成新的CoT推理过程。Verify Agent需要具备判断推理过程正确性的能力,可以使用一些已知的推理规则或知识库。CogPO算法中,奖励函数的设计至关重要,需要能够准确评估推理过程与小型模型认知能力的对齐程度。此外,还需要选择合适的强化学习算法,例如PPO或DQN。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,CRV+CogPO框架在多个具有挑战性的推理基准上显著优于其他方法。具体来说,在某些基准测试中,该框架的性能提升超过10%,证明了其在提升小型模型推理能力方面的有效性。此外,消融实验验证了CRV系统中各个Agent的作用,以及CogPO算法的有效性。

🎯 应用场景

该研究成果可应用于各种需要小型语言模型进行复杂推理的场景,例如移动设备上的智能助手、资源受限的边缘计算设备、以及需要快速响应的实时决策系统。通过提升小型模型的推理能力,可以降低计算成本,提高响应速度,并扩展语言模型在资源受限环境下的应用范围。未来,该方法有望进一步推广到其他类型的模型和任务中。

📄 摘要(原文)

The reasoning capabilities of large reasoning models (LRMs), such as OpenAI's o1 and DeepSeek-R1, have seen substantial advancements through deep thinking. However, these enhancements come with significant resource demands, underscoring the need for training effective small reasoning models. A critical challenge is that small models possess different reasoning capacities and cognitive trajectories compared with their larger counterparts. Hence, directly distilling chain-of-thought (CoT) rationales from large LRMs to smaller ones can sometimes be ineffective and often requires a substantial amount of annotated data. In this paper, we first introduce a novel Critique-Rethink-Verify (CRV) system, designed for training smaller yet powerful LRMs. Our CRV system consists of multiple LLM agents, each specializing in unique tasks: (i) critiquing the CoT rationales according to the cognitive capabilities of smaller models, (ii) rethinking and refining these CoTs based on the critiques, and (iii) verifying the correctness of the refined results. Building on the CRV system, we further propose the Cognitive Preference Optimization (CogPO) algorithm to continuously enhance the reasoning abilities of smaller models by aligning their reasoning processes with their cognitive capacities. Comprehensive evaluations on challenging reasoning benchmarks demonstrate the efficacy of our CRV+CogPO framework, which outperforms other methods by a large margin.