Continual Calibration: Coverage Can Collapse Before Accuracy in Lifelong LLM Fine-Tuning
作者: Ibne Farabi Shihab, Sanjeda Akter, Anuj Sharma
分类: cs.LG
发布日期: 2026-04-27
💡 一句话要点
提出校准回放方法,解决终身学习LLM微调中覆盖率早于准确率崩溃的问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 持续学习 大型语言模型 不确定性校准 共形预测 覆盖率 校准回放 终身学习 模型可靠性
📋 核心要点
- 现有持续学习方法在LLM微调中主要关注准确率保持,忽略了不确定性校准的退化问题。
- 提出校准回放方法,通过维护任务特定缓冲区并动态调整共形阈值,实现覆盖率的恢复。
- 实验表明,该方法能有效恢复覆盖率,且计算开销小,内存占用远低于经验回放。
📝 摘要(中文)
大型语言模型的持续学习通常通过顺序微调下的准确率保持来评估。本文认为这种视角是不完整的,因为不确定性可靠性可能比top-1性能更早、更急剧地下降。通过测量三个模型家族和八个任务序列(主要来自分类和多项选择基准)上顺序微调模型的共形覆盖率和校准误差,对此进行了实证研究。在研究的分类风格设置中,覆盖率损失超过准确率损失约3.4倍(±0.5倍)。在最明显的情况下,覆盖率从0.92下降到0.61,而准确率保持在基线的三个点之内。保持准确率的标准持续学习方法不会自动保持覆盖率,并且朴素的校准基线仅恢复部分差距。本文提出校准回放,这是一种轻量级的事后程序,它维护一个特定于任务的保留缓冲区,并在每次更新后根据当前模型重新拟合特定于任务的共形阈值。它不增加训练时梯度成本,使用的内存少于普通经验回放的百分之一,并且通常在缓冲区大小m = 200时将覆盖率恢复到标称值的两个点之内。本文的实证研究伴随着漂移分解、一个展示交换性下精确共形有效性的有限样本恢复定理,以及一个解释为什么合并阈值不足的混合有效性命题。这些保证是针对具有特定于任务的缓冲区的分类风格任务提出的;对开放式生成的扩展是探索性的。
🔬 方法详解
问题定义:论文旨在解决大型语言模型在持续学习(Continual Learning)过程中,经过序列化的微调后,模型预测结果的覆盖率(Coverage)和校准性(Calibration)会显著下降的问题。现有方法主要关注准确率的保持,而忽略了模型不确定性估计的可靠性,导致模型在实际应用中可能产生误导性的高置信度错误预测。
核心思路:论文的核心思路是利用校准回放(Calibration Replay)机制,在每个任务微调后,维护一个小的、任务特定的保留数据集(held-out buffer),并基于当前模型在该数据集上的表现,重新校准共形预测的阈值。这样可以动态地适应模型在持续学习过程中产生的漂移,从而恢复覆盖率和校准性。
技术框架:校准回放方法主要包含以下几个阶段: 1. 任务微调:使用标准的持续学习方法对模型进行序列化的任务微调。 2. 缓冲区维护:为每个任务维护一个小的保留数据集,用于后续的校准。 3. 共形阈值调整:在每个任务微调后,使用当前模型在对应任务的保留数据集上进行预测,并根据预测结果调整共形预测的阈值,以保证覆盖率。 4. 预测:使用调整后的阈值进行预测,得到具有良好覆盖率和校准性的预测结果。
关键创新:该方法最重要的创新点在于其轻量级和高效性。与传统的经验回放方法相比,校准回放只需要维护非常小的保留数据集,因此内存占用极低。此外,校准过程是事后进行的,不需要额外的训练时梯度计算,因此计算开销也很小。
关键设计: * 缓冲区大小:实验表明,缓冲区大小设置为m=200时,通常可以有效地恢复覆盖率。 * 共形预测:使用共形预测框架来保证覆盖率,通过调整阈值来控制预测集合的大小。 * 任务特定校准:为每个任务单独维护缓冲区和阈值,以适应不同任务的特点。
📊 实验亮点
实验结果表明,在分类任务中,覆盖率损失是准确率损失的3.4倍。校准回放方法能够有效恢复覆盖率,使其接近标称值,且内存占用极小,仅为经验回放的1%。在缓冲区大小为200时,覆盖率通常可以恢复到标称值的两个点之内。
🎯 应用场景
该研究成果可应用于需要持续学习的语言模型场景,例如在线客服、智能助手等。通过提高模型预测结果的覆盖率和校准性,可以增强模型的可靠性和实用性,减少误导性预测带来的负面影响。未来,该方法有望推广到开放式生成任务中,进一步提升语言模型的智能化水平。
📄 摘要(原文)
Continual learning for large language models is typically evaluated through accuracy retention under sequential fine-tuning. We argue that this perspective is incomplete, because uncertainty reliability can degrade earlier and more sharply than top-1 performance. We study this empirically by measuring conformal coverage and calibration error on sequentially fine-tuned models across three model families and eight task sequences drawn primarily from classification and multiple-choice benchmarks. Across the classification-style settings we study, coverage loss exceeds accuracy loss by a factor of roughly (3.4\times \pm 0.5\times) on average across seeds; in the most pronounced case, coverage drops from (0.92) to (0.61), while accuracy remains within three points of baseline. Standard continual-learning methods that preserve accuracy do not automatically preserve coverage, and naive calibration baselines recover only part of the gap. We propose calibration replay, a lightweight post-hoc procedure that maintains a task-specific held-out buffer and refits a task-specific conformal threshold under the current model after each update. It adds no training-time gradient cost, uses less than one percent of the memory of ordinary experience replay, and typically restores coverage to within two points of nominal at buffer size (m = 200). We accompany the empirical study with a drift decomposition, a finite-sample recovery theorem showing exact conformal validity under exchangeability, and a mixture-validity proposition explaining why pooled thresholds do not suffice. Our guarantees are stated for classification-style tasks with task-specific buffers; extensions to open-ended generation are exploratory.