Enhancing Cross-task Transfer of Large Language Models via Activation Steering

📄 arXiv: 2507.13236v1 📥 PDF

作者: Xinyu Tang, Zhihao Lv, Xiaoxue Cheng, Junyi Li, Wayne Xin Zhao, Zujie Wen, Zhiqiang Zhang, Jun Zhou

分类: cs.CL

发布日期: 2025-07-17


💡 一句话要点

提出CAST,通过激活调控实现大语言模型跨任务迁移,无需参数更新。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 跨任务学习 知识迁移 激活调控 低资源学习

📋 核心要点

  1. 现有跨任务上下文学习在鲁棒性、可扩展性和效率方面存在挑战,尤其是在数据稀缺场景下。
  2. 论文提出CAST框架,通过调控LLM内部激活状态,实现跨任务知识迁移,无需更新模型参数。
  3. 实验表明,CAST在跨领域和跨语言迁移任务上优于现有方法,并具有更好的可扩展性和效率。

📝 摘要(中文)

大型语言模型(LLMs)在利用预训练知识方面表现出令人印象深刻的能力,但它们在未见过的任务中,尤其是在数据稀缺的情况下,常常表现不佳。跨任务上下文学习为跨任务迁移知识提供了一种直接的解决方案,但它在鲁棒性、可扩展性和效率方面仍然面临严峻挑战。本文研究了是否可以通过潜在空间调控来实现跨任务迁移,而无需参数更新或输入扩展。通过分析LLM潜在空间中的激活模式,我们观察到上下文示例引起的增强激活在不同任务中具有一致的模式。受这些发现的启发,我们提出了一种新颖的跨任务激活调控迁移框架CAST,该框架通过操纵模型的内部激活状态来实现有效的迁移。我们的方法首先从高资源任务中选择有影响力和多样性的样本,然后利用其对比表示增强的激活来使LLM适应低资源任务。在跨领域和跨语言迁移设置下进行的大量实验表明,我们的方法优于有竞争力的基线,并表现出卓越的可扩展性和更低的计算成本。

🔬 方法详解

问题定义:现有的大语言模型在处理未见过的任务,特别是数据稀缺的任务时,表现不佳。跨任务上下文学习虽然可以迁移知识,但在鲁棒性、可扩展性和效率上存在问题,例如需要大量的上下文示例,计算成本高昂,且容易受到噪声干扰。

核心思路:论文的核心思路是利用大语言模型在不同任务中激活模式的相似性,通过调控模型的内部激活状态来实现知识迁移。具体来说,就是找到高资源任务中具有代表性的样本,提取其激活特征,然后用这些特征来引导模型处理低资源任务,从而实现知识的迁移,而无需修改模型参数。

技术框架:CAST框架主要包含以下几个阶段:1) 样本选择:从高资源任务中选择有影响力和多样性的样本。2) 激活提取:提取这些样本在LLM中间层的激活向量。3) 激活增强:使用对比表示学习增强激活向量的表示能力。4) 激活调控:将增强后的激活向量注入到LLM处理低资源任务的过程中,从而引导模型的输出。

关键创新:CAST的关键创新在于它提出了一种新的跨任务迁移方法,该方法通过调控模型的内部激活状态来实现知识迁移,而无需修改模型参数或增加输入长度。这种方法不仅提高了迁移效率,还降低了计算成本,并具有更好的可扩展性。与传统的上下文学习方法相比,CAST不需要大量的上下文示例,因此更加鲁棒。

关键设计:在样本选择阶段,论文使用了基于影响力和多样性的选择策略,以确保选择的样本能够代表高资源任务的知识。在激活增强阶段,论文使用了对比学习,以提高激活向量的表示能力。在激活调控阶段,论文将增强后的激活向量注入到LLM的特定层,并通过调整注入强度来控制迁移效果。具体注入哪一层以及注入强度如何调整,这些都是需要根据实验结果进行调整的关键参数。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,CAST在跨领域和跨语言迁移任务上均优于现有基线方法。例如,在跨领域文本分类任务上,CAST相比最佳基线方法提升了5%以上。此外,CAST还具有更低计算成本和更好的可扩展性,使其更适用于实际应用。

🎯 应用场景

CAST框架可应用于各种低资源场景下的自然语言处理任务,例如小语种翻译、特定领域的文本生成等。该方法能够有效利用高资源任务的知识,提升模型在低资源任务上的性能,降低数据标注成本,加速模型开发周期。未来可进一步探索其在多模态任务中的应用潜力。

📄 摘要(原文)

Large language models (LLMs) have shown impressive abilities in leveraging pretrained knowledge through prompting, but they often struggle with unseen tasks, particularly in data-scarce scenarios. While cross-task in-context learning offers a direct solution for transferring knowledge across tasks, it still faces critical challenges in terms of robustness, scalability, and efficiency. In this paper, we investigate whether cross-task transfer can be achieved via latent space steering without parameter updates or input expansion. Through an analysis of activation patterns in the latent space of LLMs, we observe that the enhanced activations induced by in-context examples have consistent patterns across different tasks. Inspired by these findings, we propose CAST, a novel Cross-task Activation Steering Transfer framework that enables effective transfer by manipulating the model's internal activation states. Our approach first selects influential and diverse samples from high-resource tasks, then utilizes their contrastive representation-enhanced activations to adapt LLMs to low-resource tasks. Extensive experiments across both cross-domain and cross-lingual transfer settings show that our method outperforms competitive baselines and demonstrates superior scalability and lower computational costs.