Weak-to-Strong Reasoning

📄 arXiv: 2407.13647v2 📥 PDF

作者: Yuqing Yang, Yan Ma, Pengfei Liu

分类: cs.CL, cs.AI

发布日期: 2024-07-18 (更新: 2024-10-01)

备注: EMNLP Findings 2024

🔗 代码/项目: GITHUB


💡 一句话要点

提出一种渐进式学习框架,提升大语言模型在复杂推理任务中的能力。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 弱到强学习 大语言模型 复杂推理 渐进式学习 偏好优化 对比学习 自主学习

📋 核心要点

  1. 现有方法难以有效监督超越人类水平的大语言模型,尤其是在复杂推理任务中,盲目模仿弱监督者会导致误差累积。
  2. 论文提出渐进式学习框架,使强模型能够自主改进训练数据,无需更高级模型或人工标注,从而提升推理能力。
  3. 实验表明,该方法显著提升了Llama2-70b和Llama3-70b在GSM8K、MATH和OlympicArena数据集上的推理性能。

📝 摘要(中文)

当大型语言模型(LLM)超越人类水平的能力时,为其提供全面且准确的监督变得越来越具有挑战性。弱到强学习在这种背景下变得很有价值,它利用能力较弱的模型来解锁更强模型的潜在能力。然而,这种方法在复杂推理任务中的有效性尚未经过测试。此外,在弱到强设置下解决推理任务目前缺乏有效的方法来避免盲目模仿弱监督者(包括其错误)。在本文中,我们介绍了一种渐进式学习框架,使强模型能够自主地改进其训练数据,而无需来自更高级模型或人工标注数据的输入。该框架首先在选择性的小型但高质量的数据集上进行监督微调,然后对强模型自身识别的对比样本进行偏好优化。在GSM8K和MATH数据集上的大量实验表明,我们的方法显著提高了Llama2-70b使用三个独立弱模型的推理能力。该方法在具有前瞻性的实验设置中得到进一步验证,其中Llama3-8b-instruct有效地监督了Llama3-70b在极具挑战性的OlympicArena数据集上的表现。这项工作为增强AI推理能力的更具可扩展性和复杂性的策略铺平了道路。

🔬 方法详解

问题定义:论文旨在解决大型语言模型在复杂推理任务中,如何有效利用弱监督信号进行训练的问题。现有方法容易盲目模仿弱模型的错误,导致强模型性能受限。尤其是在模型能力超越人类水平时,获取高质量的监督数据变得更加困难。

核心思路:核心思路是让强模型能够自主地从弱模型的输出中学习,并逐步提炼训练数据,避免盲目模仿弱模型的错误。通过选择高质量数据进行初始微调,并利用强模型自身的能力识别和优化对比样本,从而实现性能提升。

技术框架:整体框架包含两个主要阶段:1) 选择性监督微调:首先,使用弱模型生成的数据,筛选出高质量的子集,对强模型进行监督微调。筛选标准未知,但目的是保证初始训练数据的质量。2) 偏好优化:强模型生成多个推理路径,然后利用自身的能力对这些路径进行排序,构建对比样本。使用这些对比样本进行偏好优化,鼓励模型生成更合理的推理过程。

关键创新:最重要的创新点在于强模型能够自主地提炼训练数据,而无需人工干预或更强模型的指导。通过对比学习的方式,让模型学习区分正确和错误的推理路径,从而避免盲目模仿弱模型的错误。

关键设计:论文的关键设计包括:1) 数据选择策略:如何从弱模型生成的数据中选择高质量的子集(具体策略未知)。2) 对比样本构建:如何利用强模型生成多个推理路径,并进行排序,构建有效的对比样本。3) 偏好优化方法:使用何种偏好优化算法,以及如何设计损失函数,以鼓励模型生成更合理的推理过程(具体细节未知)。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法显著提升了Llama2-70b在GSM8K和MATH数据集上的推理能力,并且成功地利用Llama3-8b-instruct监督Llama3-70b在OlympicArena数据集上的训练。具体性能提升数据未知,但结果表明该方法在复杂推理任务中具有显著优势。

🎯 应用场景

该研究成果可应用于各种需要复杂推理能力的AI系统,例如数学问题求解、代码生成、逻辑推理等。通过弱到强学习,可以降低训练成本,并提升模型的推理能力。未来,该方法有望应用于更广泛的领域,例如科学发现、医疗诊断等。

📄 摘要(原文)

When large language models (LLMs) exceed human-level capabilities, it becomes increasingly challenging to provide full-scale and accurate supervision for these models. Weak-to-strong learning, which leverages a less capable model to unlock the latent abilities of a stronger model, proves valuable in this context. Yet, the efficacy of this approach for complex reasoning tasks is still untested. Furthermore, tackling reasoning tasks under the weak-to-strong setting currently lacks efficient methods to avoid blindly imitating the weak supervisor including its errors. In this paper, we introduce a progressive learning framework that enables the strong model to autonomously refine its training data, without requiring input from either a more advanced model or human-annotated data. This framework begins with supervised fine-tuning on a selective small but high-quality dataset, followed by preference optimization on contrastive samples identified by the strong model itself. Extensive experiments on the GSM8K and MATH datasets demonstrate that our method significantly enhances the reasoning capabilities of Llama2-70b using three separate weak models. This method is further validated in a forward-looking experimental setup, where Llama3-8b-instruct effectively supervises Llama3-70b on the highly challenging OlympicArena dataset. This work paves the way for a more scalable and sophisticated strategy to enhance AI reasoning powers. All relevant code and resources are available in \url{https://github.com/GAIR-NLP/weak-to-strong-reasoning}.