Progress or Regress? Self-Improvement Reversal in Post-training

📄 arXiv: 2407.05013v1 📥 PDF

作者: Ting Wu, Xuefeng Li, Pengfei Liu

分类: cs.CL

发布日期: 2024-07-06


💡 一句话要点

提出全面评估框架以解决自我提升逆转问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 自我提升 后训练 评估框架 模型性能 泛化能力 输出多样性 复杂问题

📋 核心要点

  1. 现有的自我提升方法在解决复杂问题时可能导致模型性能的意外下降,尤其是在输出多样性和泛化能力方面。
  2. 本文提出了一种新的评估框架,旨在深入分析自我提升后训练的效果,超越传统的性能指标。
  3. 实验结果显示,尽管模型在某些基准上表现提升,但在更广泛的能力上却出现了退步,揭示了自我提升逆转现象。

📝 摘要(中文)

自我提升方法如迭代偏好学习被广泛认为能够增强大型语言模型(LLMs)的数学推理等问题解决能力。然而,深入探索后,评估这些提升是否真正代表在解决更复杂问题上的进步,或是否可能导致意想不到的退步变得至关重要。为此,本文提出了一种全面的评估框架,超越表面上的pass@1指标,深入审视自我提升后训练范式的潜在改进。通过对多种问题解决任务的严格实验和分析,实证结果揭示了自我提升逆转现象,即在基准测试中表现改善的模型在输出多样性和分布外(OOD)泛化等更广泛的基本能力上却出现了下降。这些发现表明,当前的自我提升实践不足以使模型应对更复杂的问题,同时强调了我们评估指标在区分自我提升LLMs的进步与退步中的必要性。

🔬 方法详解

问题定义:本文旨在解决自我提升后训练方法可能导致的模型性能逆转问题,现有方法未能有效评估模型在复杂任务中的真实能力。

核心思路:提出一种全面的评估框架,重点关注模型在多样性和泛化能力等关键指标上的表现,而不仅仅是表面的性能提升。

技术框架:该框架包括多个模块,首先进行基准测试以评估模型性能,然后通过多样性和OOD泛化能力的评估来分析模型的全面表现。

关键创新:最重要的创新在于引入了新的评估指标,能够有效区分模型在特定任务上的提升与其在更广泛能力上的退步,这与现有方法的单一性能评估形成鲜明对比。

关键设计:在实验中,设置了多种参数和损失函数,以确保评估的全面性和准确性,特别关注模型在不同任务和数据分布下的表现。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,尽管某些模型在基准测试中表现提升,但在输出多样性和OOD泛化能力上却出现了显著下降,揭示了自我提升逆转现象。这一发现强调了评估框架的重要性,能够有效识别模型的真实能力变化。

🎯 应用场景

该研究的潜在应用领域包括自然语言处理、智能问答系统和教育技术等。通过改进自我提升方法的评估,能够更好地指导模型的训练和优化,从而提升其在复杂任务中的表现,具有重要的实际价值和未来影响。

📄 摘要(原文)

Self-improvement through post-training methods such as iterative preference learning has been acclaimed for enhancing the problem-solving capabilities (e.g., mathematical reasoning) of Large Language Models (LLMs) without human intervention. However, as exploration deepens, it becomes crucial to assess whether these improvements genuinely signify progress in solving more challenging problems or if they could lead to unintended regressions. To address this, we propose a comprehensive evaluative framework that goes beyond the superficial pass@1 metric to scrutinize the underlying enhancements of post-training paradigms for self-improvement. Through rigorous experimentation and analysis across diverse problem-solving tasks, the empirical results point out the phenomenon of \emph{self-improvement reversal}, where models showing improved performance across benchmarks will paradoxically exhibit declines in broader, essential capabilities, like output diversity and out-of-distribution (OOD) generalization. These findings indicate that current self-improvement practices through post-training are inadequate for equipping models to tackle more complex problems. Furthermore, they underscore the necessity of our critical evaluation metrics in discerning the \emph{progress or regress} dichotomy for self-improving LLMs.