ORBIT: Preserving Foundational Language Capabilities in GenRetrieval via Origin-Regulated Merging
作者: Neha Verma, Nikhil Mehta, Shao-Chuan Wang, Naijing Zhang, Alicia Tsai, Li Wei, Lukasz Heldt, Lichan Hong, Ed Chi, Xinyang Yi
分类: cs.CL, cs.IR, cs.LG
发布日期: 2026-05-12
💡 一句话要点
ORBIT:通过源头调控合并,在生成式检索中保留基础语言能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 生成式检索 灾难性遗忘 持续学习 权重平均 模型微调
📋 核心要点
- 大型语言模型在特定任务微调时,会遗忘其通用的语言推理能力,尤其是在生成式检索任务中。
- ORBIT通过主动跟踪微调和初始模型权重距离,并采用权重平均策略来约束模型漂移,从而缓解遗忘问题。
- 实验结果表明,ORBIT在保留文本和检索性能方面优于常见的持续学习基线和其他权重平均正则化方法。
📝 摘要(中文)
尽管大型语言模型(LLM)的发展迅速,但针对特定任务对其进行微调通常会导致其通用的、基于语言的推理能力发生灾难性遗忘。本文研究并解决了生成式检索(GenRetrieval)任务中的这一挑战。在GenRetrieval微调期间,我们发现这种遗忘发生得很快,并且与微调模型和原始模型参数之间的距离相关。基于这些观察,我们提出了一种新方法ORBIT,该方法主动跟踪微调权重和初始模型权重之间的距离,并使用权重平均策略来约束GenRetrieval微调期间的模型漂移,当此模型间距离超过最大阈值时。我们的结果表明,ORBIT通过优于常见的持续学习基线和也采用权重平均的相关正则化方法,保留了大量的文本和检索性能。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)在生成式检索(GenRetrieval)任务中进行微调时,出现的灾难性遗忘问题。现有方法在微调过程中,模型会快速遗忘其原有的通用语言能力,导致检索性能下降。这种遗忘与微调后的模型参数与原始模型参数的距离密切相关。
核心思路:ORBIT的核心思路是在微调过程中,主动监控微调后模型参数与原始模型参数的距离。当这个距离超过预设的阈值时,通过权重平均的方式,将模型参数拉回到原始模型的方向,从而约束模型的漂移,保留其原有的语言能力。这种方法旨在平衡特定任务的性能提升和通用语言能力的保留。
技术框架:ORBIT方法主要包含以下几个步骤:1. 初始化:加载预训练的LLM作为初始模型。2. 微调:使用生成式检索任务的数据对模型进行微调。3. 距离监控:在微调过程中,持续计算当前模型参数与初始模型参数之间的距离(例如,L2距离)。4. 权重平均:当模型参数距离超过预设阈值时,使用权重平均策略,将当前模型参数与初始模型参数进行加权平均,得到新的模型参数。5. 迭代:重复步骤2-4,直到微调完成。
关键创新:ORBIT的关键创新在于其动态的权重平均策略。它不是简单地在微调结束后进行权重平均,而是在微调过程中,根据模型参数的漂移程度,动态地调整权重平均的比例。这种方法能够更有效地约束模型的漂移,保留其原有的语言能力。与传统的持续学习方法相比,ORBIT更加关注模型参数的漂移程度,并根据漂移程度进行干预。
关键设计:ORBIT的关键设计包括:1. 距离度量:选择合适的距离度量方式(例如,L2距离)来衡量模型参数的漂移程度。2. 阈值设定:设定合适的距离阈值,以触发权重平均操作。阈值的选择需要根据具体的任务和模型进行调整。3. 权重平均比例:确定权重平均的比例,即当前模型参数和初始模型参数的权重。这个比例也需要根据具体的任务和模型进行调整。4. 优化器选择:选择合适的优化器,例如AdamW,并调整学习率等超参数。
🖼️ 关键图片
📊 实验亮点
实验结果表明,ORBIT方法在生成式检索任务中,能够显著提高模型的检索性能,同时保留其原有的语言能力。与常见的持续学习基线方法和权重平均正则化方法相比,ORBIT在文本和检索性能上均取得了更好的结果。具体性能数据未知,但论文强调ORBIT优于其他基线方法。
🎯 应用场景
ORBIT方法可以应用于各种需要对大型语言模型进行微调的生成式检索任务,例如问答系统、对话系统、信息检索等。该方法能够有效缓解微调过程中的灾难性遗忘问题,提高模型在特定任务上的性能,同时保留其通用的语言能力,具有重要的实际应用价值和潜在的未来影响。
📄 摘要(原文)
Despite the rapid advancements in large language model (LLM) development, fine-tuning them for specific tasks often results in the catastrophic forgetting of their general, language-based reasoning abilities. This work investigates and addresses this challenge in the context of the Generative Retrieval (GenRetrieval) task. During GenRetrieval fine-tuning, we find this forgetting occurs rapidly and correlates with the distance between the fine-tuned and original model parameters. Given these observations, we propose ORBIT, a novel approach that actively tracks the distance between fine-tuned and initial model weights, and uses a weight averaging strategy to constrain model drift during GenRetrieval fine-tuning when this inter-model distance exceeds a maximum threshold. Our results show that ORBIT retains substantial text and retrieval performance by outperforming both common continual learning baselines and related regularization methods that also employ weight averaging.