Learning from Committee: Reasoning Distillation from a Mixture of Teachers with Peer-Review

作者: Zhuochun Li, Yuelyu Ji, Rui Meng, Daqing He

分类: cs.CL, cs.AI

发布日期: 2024-10-04 (更新: 2025-05-20)

备注: 16 pages, 5 figures

🔗 代码/项目: GITHUB

💡 一句话要点

提出FAIR：通过委员会推理蒸馏，利用同伴互评机制提升小模型推理能力

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 知识蒸馏 推理能力 大型语言模型 同伴互评 委员会学习 容错学习 指令学习

📋 核心要点

现有知识蒸馏方法依赖单一LLM作为标准答案，忽略了错误原因的学习，限制了小模型的推理能力提升。
FAIR方法通过让教师LLM识别并解释学生模型的错误，提供定制化的教学数据，从而实现更有效的知识传递。
实验表明，FAIR方法在数学、常识和逻辑推理任务上均表现出优异性能，显著提升了小模型的推理能力。

📝 摘要（中文）

大型语言模型（LLM）通常具备数十亿参数才能展现推理能力，而最近的研究侧重于通过从商业LLM进行知识蒸馏（KD）来改进较小的开源模型。然而，许多研究仅依赖于单个LLM的响应作为标准答案，这与自然的人类学习过程不同，后者涉及理解正确答案以及错误背后的原因。本文提出了一种新颖的基于同伴互评的容错蒸馏（FAIR）方法：1）我们的方法不是简单地从教师那里获取理由，而是要求教师识别并解释学生的错误，从而提供定制的教学学习数据；2）我们设计了一个教师LLM之间的模拟同伴互评过程，并仅选择高于接受阈值的生成理由，从而减少了教师以错误的理由进行正确猜测的可能性，从而提高了教学数据的质量。在数学、常识和逻辑推理任务上的综合实验和分析证明了我们方法的有效性。我们的代码可在https://github.com/zhuochunli/Learn-from-Committee获得。

🔬 方法详解

问题定义：现有知识蒸馏方法在提升小规模语言模型的推理能力时，主要依赖于大型语言模型（LLM）提供的标准答案和推理过程。然而，这种方法忽略了学生模型犯错的原因，未能充分利用错误信息进行学习。此外，单一教师LLM可能存在推理上的缺陷，导致蒸馏数据的质量不高。

核心思路：FAIR的核心思路是模拟人类学习过程中的“委员会”学习和“同伴互评”机制。具体而言，它利用多个教师LLM组成一个委员会，共同评估学生模型的推理过程，并识别其中的错误。同时，引入同伴互评机制，让教师LLM互相审查彼此的解释，从而提高教学数据的质量。

技术框架：FAIR方法主要包含以下几个阶段：1) 学生模型生成答案和推理过程；2) 多个教师LLM对学生模型的答案和推理过程进行评估，并识别其中的错误；3) 教师LLM针对学生模型的错误，给出解释和改进建议；4) 教师LLM之间进行同伴互评，筛选出高质量的解释和建议；5) 利用筛选后的数据，对学生模型进行知识蒸馏。

关键创新：FAIR的关键创新在于引入了“委员会”和“同伴互评”机制，从而提高了知识蒸馏数据的质量。与传统的知识蒸馏方法相比，FAIR不仅关注正确答案，更关注错误原因，从而能够更有效地指导学生模型进行学习。此外，同伴互评机制能够有效减少教师LLM的错误推理，进一步提高教学数据的质量。

关键设计：FAIR的关键设计包括：1) 如何选择合适的教师LLM；2) 如何设计同伴互评的流程和标准；3) 如何利用筛选后的数据进行知识蒸馏。具体而言，论文可能涉及对教师LLM的规模、能力和多样性进行选择，设计合理的互评指标（例如，解释的清晰度、准确性和完整性），以及采用合适的损失函数和训练策略来指导学生模型的学习。

🖼️ 关键图片

📊 实验亮点

论文在数学、常识和逻辑推理任务上进行了实验，结果表明FAIR方法能够显著提升小模型的推理能力。具体性能数据未知，但摘要强调了其有效性，暗示了相比于传统知识蒸馏方法有显著的性能提升。

🎯 应用场景

FAIR方法可应用于各种需要提升小规模语言模型推理能力的场景，例如智能客服、教育辅导、代码生成等。通过该方法，可以利用商业LLM的知识，高效地训练出高性能的开源模型，降低部署成本，并促进AI技术的普及。

📄 摘要（原文）

While reasoning capabilities typically emerge in large language models (LLMs) with tens of billions of parameters, recent research focuses on improving smaller open-source models through knowledge distillation (KD) from commercial LLMs. However, many of these studies rely solely on responses from a single LLM as the gold rationale, unlike the natural human learning process, which involves understanding both the correct answers and the reasons behind mistakes. In this paper, we introduce a novel Fault-Aware DistIllation via Peer-Review (FAIR) approach: 1) instead of merely obtaining rationales from teachers, our method asks teachers to identify and explain the student's mistakes, providing customized instruction learning data; 2) we design a simulated peer-review process between teacher LLMs, and selects only the generated rationales above the acceptance threshold, which reduces the chance of teachers guessing correctly with flawed rationale, improving instructional data quality. Comprehensive experiments and analysis on mathematical, commonsense, and logical reasoning tasks demonstrate the effectiveness of our method. Our code is available at https://github.com/zhuochunli/Learn-from-Committee.

Learning from Committee: Reasoning Distillation from a Mixture of Teachers with Peer-Review

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理