TiTok: Transfer Token-level Knowledge via Contrastive Excess to Transplant LoRA

📄 arXiv: 2510.04682v1 📥 PDF

作者: Chanjoo Jung, Jaehyung Kim

分类: cs.CL, cs.AI

发布日期: 2025-10-06


💡 一句话要点

TiTok:利用对比差异迁移token级知识,实现LoRA跨模型移植

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 参数高效微调 LoRA移植 知识迁移 对比学习 Token级别知识

📋 核心要点

  1. 现有PEFT方法如LoRA无法跨不同backbone迁移,限制了其应用范围。
  2. TiTok通过对比源模型有无LoRA时的token差异,提取任务相关知识。
  3. 实验表明,TiTok在多个迁移任务上性能提升显著,平均提升4-8%。

📝 摘要(中文)

大型语言模型(LLMs)被广泛应用于实际场景,但微调它们需要大量的计算和存储成本。诸如LoRA之类的参数高效微调(PEFT)方法可以缓解这些成本,但调整后的参数依赖于基础模型,无法跨不同的骨干网络进行迁移。解决这个问题的一种方法是通过知识蒸馏,但其有效性本质上取决于训练数据。最近的TransLoRA等工作通过生成合成数据来避免这个问题,但这增加了复杂性,因为它需要训练一个额外的判别器模型。在本文中,我们提出了一种新的框架TiTok,它通过token级知识迁移来实现有效的LoRA移植。具体来说,TiTok通过源模型在使用和不使用LoRA之间进行对比差异来捕获任务相关的信息。这种差异突出了信息丰富的token,并能够选择性地过滤合成数据,而无需额外的模型或开销。通过在多个迁移设置的三个基准上进行的实验表明,所提出的方法始终有效,与总体基线相比,平均性能提升了+4~8%。

🔬 方法详解

问题定义:现有参数高效微调方法,如LoRA,虽然降低了微调成本,但学习到的参数高度依赖于特定的基础模型。因此,将LoRA适配器从一个模型迁移到另一个模型(例如,从较小的模型迁移到较大的模型)非常困难。现有的知识蒸馏方法依赖于训练数据,而TransLoRA虽然通过生成合成数据避免了这个问题,但引入了额外的判别器模型,增加了复杂性。

核心思路:TiTok的核心思想是通过对比源模型在使用LoRA和不使用LoRA时的token表示差异,来提取任务相关的知识。这种差异可以突出显示对特定任务至关重要的token,从而用于指导LoRA适配器的迁移。通过关注这些关键token,可以更有效地将知识从源模型传递到目标模型,而无需额外的判别器或大量标注数据。

技术框架:TiTok框架主要包含以下几个步骤:1) 使用LoRA对源模型进行微调;2) 分别计算源模型在使用和不使用LoRA时的token表示;3) 计算token表示之间的对比差异,以突出显示信息丰富的token;4) 基于这些token的差异,选择性地过滤合成数据;5) 使用过滤后的数据训练目标模型的LoRA适配器。整个过程无需额外的判别器模型。

关键创新:TiTok的关键创新在于利用对比差异来提取token级别的任务相关知识,并将其用于指导LoRA适配器的迁移。与现有方法相比,TiTok无需额外的判别器模型,也无需依赖大量标注数据,从而降低了计算成本和数据依赖性。此外,token级别的知识迁移能够更精细地捕捉任务的本质,从而提高迁移效果。

关键设计:TiTok的关键设计包括:1) 对比损失函数的设计,用于衡量token表示之间的差异;2) 基于token差异的合成数据过滤策略,用于选择信息量更大的数据;3) LoRA适配器的训练策略,用于将迁移的知识融入目标模型。具体的参数设置和网络结构取决于具体的任务和模型。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,TiTok在三个基准数据集上,相比于现有方法,性能平均提升了4-8%。尤其是在跨模型迁移的场景下,TiTok能够有效地将知识从源模型迁移到目标模型,显著提高了目标模型的性能。这些结果验证了TiTok方法的有效性和通用性。

🎯 应用场景

TiTok技术可应用于多种场景,例如:将模型在资源充足的环境下微调后,迁移到资源受限的边缘设备上;将模型从一种语言迁移到另一种语言;或者将模型从一个任务迁移到另一个相关任务。该技术降低了模型部署和迁移的成本,加速了AI在各行业的落地。

📄 摘要(原文)

Large Language Models (LLMs) are widely applied in real world scenarios, but fine-tuning them comes with significant computational and storage costs. Parameter-Efficient Fine-Tuning (PEFT) methods such as LoRA mitigate these costs, but the adapted parameters are dependent on the base model and cannot be transferred across different backbones. One way to address this issue is through knowledge distillation, but its effectiveness inherently depends on training data. Recent work such as TransLoRA avoids this by generating synthetic data, but this adds complexity because it requires training an additional discriminator model. In this paper, we propose TiTok, a new framework that enables effective LoRA Transplantation through Token-level knowledge transfer. Specifically, TiTok captures task-relevant information through a contrastive excess between a source model with and without LoRA. This excess highlights informative tokens and enables selective filtering of synthetic data, all without additional models or overhead. Through experiments on three benchmarks across multiple transfer settings, our experiments show that the proposed method is consistently effective, achieving average performance gains of +4~8% compared to baselines overall.