Reflecting on the State of Rehearsal-free Continual Learning with Pretrained Models
作者: Lukas Thede, Karsten Roth, Olivier J. Hénaff, Matthias Bethge, Zeynep Akata
分类: cs.LG, cs.CV
发布日期: 2024-06-13 (更新: 2025-09-21)
备注: 3rd Conference on Lifelong Learning Agents (CoLLAs) 2024
💡 一句话要点
揭示预训练模型下无排练持续学习的真实现状与局限性
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 持续学习 无排练学习 预训练模型 参数高效微调 PEFT 基线分析 模型评估
📋 核心要点
- 现有无排练持续学习方法过度依赖复杂的输入条件查询机制,而忽略了简单PEFT基线的潜力。
- 通过分析现有方法的局限性,论文提出了一种轻量级的PEFT基线,用于评估和理解P-RFCL方法的性能。
- 实验表明,许多P-RFCL方法可以通过简单的PEFT基线来匹配,揭示了现有方法的实际性能驱动因素。
📝 摘要(中文)
随着预训练模型日益普及,持续学习(CL)的研究重点已从零开始的持续训练转向预训练模型的持续适应,尤其是在无排练持续学习(RFCL)基准上取得了显著成功。大多数方法通过调整和重构参数高效微调技术(PEFT)来适应持续学习的特性。这些基于PEFT风格的RFCL(P-RFCL)方法,通常基于输入条件查询机制或对基于prompt或adapter的PEFT进行正则化,报告了优异的性能,甚至超越了现有的CL技术。然而,最近的研究表明,仅在第一个任务上训练或通过简单的非参数基线也能获得具有竞争力的结果。因此,P-RFCL中的方法选择与其报告的高基准分数之间的关系引发了疑问。本文旨在解决这些问题,以更好地理解P-RFCL强大性能背后的真正驱动因素,它们与最近的首次任务适应研究的关系,以及它们与EWC或SI等先前CL标准的关系。研究表明:(1)依赖于输入条件查询机制的P-RFCL技术并非因为这些机制而有效,而是通过坍缩到标准PEFT捷径解决方案而奏效。(2)大多数情况下,P-RFCL技术可以通过一个简单轻量级的PEFT基线来匹配。(3)使用该基线,确定了从PEFT方法推导RFCL方法时可调参数的隐式界限,这可能是P-RFCL有效性的潜在原因。(4)更好地分离了持续学习与首次任务适应,以及(5)在最近的P-RFCL方法背景下,激发了EWC或SI等标准RFCL技术。
🔬 方法详解
问题定义:论文旨在解决在预训练模型上进行无排练持续学习时,现有方法过度依赖复杂机制(如输入条件查询)的问题。这些方法声称优于传统持续学习方法,但其真正性能驱动因素尚不明确,可能存在过度设计和对简单基线的忽视。
核心思路:论文的核心思路是,通过构建一个简单且轻量级的PEFT基线,来评估和理解现有P-RFCL方法的性能。该基线旨在揭示现有方法是否真的优于简单的参数高效微调,以及复杂机制是否真正带来了性能提升。
技术框架:论文的技术框架主要包括以下几个步骤:1. 评估现有P-RFCL方法,分析其性能瓶颈。2. 构建一个轻量级的PEFT基线,例如基于Prompt或Adapter的微调。3. 将现有方法与PEFT基线进行比较,评估其性能差异。4. 分析可调参数的隐式界限对P-RFCL方法性能的影响。5. 探讨持续学习与首次任务适应之间的关系,并重新审视传统持续学习方法(如EWC和SI)的价值。
关键创新:论文最重要的技术创新点在于,它揭示了现有P-RFCL方法的性能可能并非源于其复杂的输入条件查询机制,而是源于简单的PEFT捷径解决方案。通过构建一个轻量级的PEFT基线,论文能够更准确地评估现有方法的性能,并发现其潜在的过度设计。
关键设计:论文的关键设计包括:1. 选择合适的PEFT方法作为基线,例如Prompt或Adapter微调。2. 精心设计实验,对比现有P-RFCL方法与PEFT基线的性能。3. 分析可调参数的数量对性能的影响,探讨其隐式界限。4. 采用标准持续学习基准进行评估,确保结果的可靠性和可比性。
🖼️ 关键图片
📊 实验亮点
研究表明,许多基于输入条件查询机制的P-RFCL方法,其性能可以通过简单的PEFT基线来匹配,甚至超越。这表明现有方法可能存在过度设计,而简单的参数高效微调可能更有效。此外,论文还指出了可调参数的隐式界限对P-RFCL方法性能的影响。
🎯 应用场景
该研究成果可应用于各种需要持续学习能力的场景,例如机器人导航、自然语言处理和图像识别。通过简化持续学习方法,可以降低计算成本和部署难度,使其更容易应用于资源受限的设备和环境中。此外,该研究还有助于更好地理解预训练模型在持续学习中的作用,为未来的研究方向提供指导。
📄 摘要(原文)
With the advent and recent ubiquity of foundation models, continual learning (CL) has recently shifted from continual training from scratch to the continual adaptation of pretrained models, seeing particular success on rehearsal-free CL benchmarks (RFCL). To achieve this, most proposed methods adapt and restructure parameter-efficient finetuning techniques (PEFT) to suit the continual nature of the problem. Based most often on input-conditional query-mechanisms or regularizations on top of prompt- or adapter-based PEFT, these PEFT-style RFCL (P-RFCL) approaches report peak performances; often convincingly outperforming existing CL techniques. However, on the other end, critical studies have recently highlighted competitive results by training on just the first task or via simple non-parametric baselines. Consequently, questions arise about the relationship between methodological choices in P-RFCL and their reported high benchmark scores. In this work, we tackle these questions to better understand the true drivers behind strong P-RFCL performances, their placement w.r.t. recent first-task adaptation studies, and their relation to preceding CL standards such as EWC or SI. In particular, we show: (1) P-RFCL techniques relying on input-conditional query mechanisms work not because, but rather despite them by collapsing towards standard PEFT shortcut solutions. (2) Indeed, we show how most often, P-RFCL techniques can be matched by a simple and lightweight PEFT baseline. (3) Using this baseline, we identify the implicit bound on tunable parameters when deriving RFCL approaches from PEFT methods as a potential denominator behind P-RFCL efficacy. Finally, we (4) better disentangle continual versus first-task adaptation, and (5) motivate standard RFCL techniques s.a. EWC or SI in light of recent P-RFCL methods.