Continual Calibration: Coverage Can Collapse Before Accuracy in Lifelong LLM Fine-Tuning

作者: Ibne Farabi Shihab, Sanjeda Akter, Anuj Sharma

分类: cs.LG

发布日期: 2026-04-27

💡 一句话要点

提出校准回放方法，解决终身学习LLM微调中覆盖率早于准确率崩溃的问题

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 持续学习 大型语言模型 不确定性校准 共形预测 覆盖率 校准回放 终身学习 模型可靠性

📋 核心要点

现有持续学习方法在LLM微调中主要关注准确率保持，忽略了不确定性校准的退化问题。
提出校准回放方法，通过维护任务特定缓冲区并动态调整共形阈值，实现覆盖率的恢复。
实验表明，该方法能有效恢复覆盖率，且计算开销小，内存占用远低于经验回放。

📝 摘要（中文）

大型语言模型的持续学习通常通过顺序微调下的准确率保持来评估。本文认为这种视角是不完整的，因为不确定性可靠性可能比top-1性能更早、更急剧地下降。通过测量三个模型家族和八个任务序列（主要来自分类和多项选择基准）上顺序微调模型的共形覆盖率和校准误差，对此进行了实证研究。在研究的分类风格设置中，覆盖率损失超过准确率损失约3.4倍（±0.5倍）。在最明显的情况下，覆盖率从0.92下降到0.61，而准确率保持在基线的三个点之内。保持准确率的标准持续学习方法不会自动保持覆盖率，并且朴素的校准基线仅恢复部分差距。本文提出校准回放，这是一种轻量级的事后程序，它维护一个特定于任务的保留缓冲区，并在每次更新后根据当前模型重新拟合特定于任务的共形阈值。它不增加训练时梯度成本，使用的内存少于普通经验回放的百分之一，并且通常在缓冲区大小m = 200时将覆盖率恢复到标称值的两个点之内。本文的实证研究伴随着漂移分解、一个展示交换性下精确共形有效性的有限样本恢复定理，以及一个解释为什么合并阈值不足的混合有效性命题。这些保证是针对具有特定于任务的缓冲区的分类风格任务提出的；对开放式生成的扩展是探索性的。

🔬 方法详解

问题定义：论文旨在解决大型语言模型在持续学习（Continual Learning）过程中，经过序列化的微调后，模型预测结果的覆盖率（Coverage）和校准性（Calibration）会显著下降的问题。现有方法主要关注准确率的保持，而忽略了模型不确定性估计的可靠性，导致模型在实际应用中可能产生误导性的高置信度错误预测。

核心思路：论文的核心思路是利用校准回放（Calibration Replay）机制，在每个任务微调后，维护一个小的、任务特定的保留数据集（held-out buffer），并基于当前模型在该数据集上的表现，重新校准共形预测的阈值。这样可以动态地适应模型在持续学习过程中产生的漂移，从而恢复覆盖率和校准性。

技术框架：校准回放方法主要包含以下几个阶段： 1. 任务微调：使用标准的持续学习方法对模型进行序列化的任务微调。 2. 缓冲区维护：为每个任务维护一个小的保留数据集，用于后续的校准。 3. 共形阈值调整：在每个任务微调后，使用当前模型在对应任务的保留数据集上进行预测，并根据预测结果调整共形预测的阈值，以保证覆盖率。 4. 预测：使用调整后的阈值进行预测，得到具有良好覆盖率和校准性的预测结果。

关键创新：该方法最重要的创新点在于其轻量级和高效性。与传统的经验回放方法相比，校准回放只需要维护非常小的保留数据集，因此内存占用极低。此外，校准过程是事后进行的，不需要额外的训练时梯度计算，因此计算开销也很小。

关键设计： * 缓冲区大小：实验表明，缓冲区大小设置为m=200时，通常可以有效地恢复覆盖率。 * 共形预测：使用共形预测框架来保证覆盖率，通过调整阈值来控制预测集合的大小。 * 任务特定校准：为每个任务单独维护缓冲区和阈值，以适应不同任务的特点。

📊 实验亮点

实验结果表明，在分类任务中，覆盖率损失是准确率损失的3.4倍。校准回放方法能够有效恢复覆盖率，使其接近标称值，且内存占用极小，仅为经验回放的1%。在缓冲区大小为200时，覆盖率通常可以恢复到标称值的两个点之内。

🎯 应用场景

该研究成果可应用于需要持续学习的语言模型场景，例如在线客服、智能助手等。通过提高模型预测结果的覆盖率和校准性，可以增强模型的可靠性和实用性，减少误导性预测带来的负面影响。未来，该方法有望推广到开放式生成任务中，进一步提升语言模型的智能化水平。

📄 摘要（原文）

Continual learning for large language models is typically evaluated through accuracy retention under sequential fine-tuning. We argue that this perspective is incomplete, because uncertainty reliability can degrade earlier and more sharply than top-1 performance. We study this empirically by measuring conformal coverage and calibration error on sequentially fine-tuned models across three model families and eight task sequences drawn primarily from classification and multiple-choice benchmarks. Across the classification-style settings we study, coverage loss exceeds accuracy loss by a factor of roughly (3.4\times \pm 0.5\times) on average across seeds; in the most pronounced case, coverage drops from (0.92) to (0.61), while accuracy remains within three points of baseline. Standard continual-learning methods that preserve accuracy do not automatically preserve coverage, and naive calibration baselines recover only part of the gap. We propose calibration replay, a lightweight post-hoc procedure that maintains a task-specific held-out buffer and refits a task-specific conformal threshold under the current model after each update. It adds no training-time gradient cost, uses less than one percent of the memory of ordinary experience replay, and typically restores coverage to within two points of nominal at buffer size (m = 200). We accompany the empirical study with a drift decomposition, a finite-sample recovery theorem showing exact conformal validity under exchangeability, and a mixture-validity proposition explaining why pooled thresholds do not suffice. Our guarantees are stated for classification-style tasks with task-specific buffers; extensions to open-ended generation are exploratory.

Continual Calibration: Coverage Can Collapse Before Accuracy in Lifelong LLM Fine-Tuning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理