DeCoVec: Building Decoding Space based Task Vector for Large Language Models via In-Context Learning

📄 arXiv: 2604.11129v1 📥 PDF

作者: Feiyang Li, Yile Wang

分类: cs.CL

发布日期: 2026-04-13

备注: Accepted to ACL 2026 Findings


💡 一句话要点

提出DeCoVec以解决大语言模型任务向量构建问题

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 任务向量 上下文学习 解码空间 无训练方法 非侵入式操作 生成模型 自然语言处理

📋 核心要点

  1. 现有方法通常需要对大语言模型进行微调或侵入式操作,限制了其灵活性和可扩展性。
  2. DeCoVec通过在解码空间中直接构建任务向量,利用上下文学习来捕捉任务本质,避免了训练和侵入式操作。
  3. 实验结果显示,DeCoVec在多个基准数据集上均优于标准少样本方法,准确率提升显著,且表现出强大的鲁棒性。

📝 摘要(中文)

任务向量作为一种表示模型或激活空间中任务特定行为的工具,已成为引导大语言模型(LLMs)的有前景的方法。然而,现有方法通常需要微调或对内部状态进行侵入式操作,限制了其灵活性和可扩展性。我们提出了DeCoVec(基于解码空间的任务向量),这是一个无训练和非侵入式框架,通过利用上下文学习(ICL)直接在解码空间中构建任务向量。具体而言,DeCoVec通过捕捉少样本和零样本提示的输出logit分布之间的差异来提取任务本质,然后通过将该向量注入解码过程中来引导生成。实验结果表明,DeCoVec在多个LLMs(0.5B–9B)上表现优于标准的少样本基线,平均准确率提升高达5.50。

🔬 方法详解

问题定义:本论文旨在解决如何在不进行微调或侵入式操作的情况下,构建有效的任务向量以引导大语言模型的生成。现有方法的痛点在于其对模型内部状态的依赖,导致灵活性不足。

核心思路:论文提出的DeCoVec框架通过在解码空间中直接构建任务向量,利用上下文学习(ICL)来捕捉任务的本质,从而实现无训练和非侵入式的模型引导。

技术框架:DeCoVec的整体架构包括两个主要阶段:首先,通过分析少样本和零样本提示的输出logit分布,提取任务向量;其次,将该向量注入到解码过程中以引导生成。

关键创新:DeCoVec的核心创新在于其无训练和非侵入式的特性,避免了对模型权重的更新或额外模型的需求,与现有方法相比,显著提升了灵活性和可扩展性。

关键设计:在设计上,DeCoVec通过计算少样本和零样本提示的logit分布差异来定义任务向量,确保该向量能够有效地反映任务特征,同时不增加额外的输入token成本。实验中未涉及具体的损失函数和网络结构细节。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,DeCoVec在TruthfulQA、Math-500和AQUA-RAT等数据集上,平均准确率提升高达5.50,相较于标准的少样本基线表现出显著的优势。此外,DeCoVec有效抑制了生成退化和逻辑缺陷,展现出对演示顺序的强鲁棒性。

🎯 应用场景

DeCoVec的研究成果在多个领域具有广泛的应用潜力,尤其是在自然语言处理任务中,如问答系统、文本生成和对话系统等。其无训练和非侵入式的特性使得模型能够更灵活地适应不同任务,降低了部署和维护的复杂性,未来可能推动大语言模型在实际应用中的普及与发展。

📄 摘要(原文)

Task vectors, representing directions in model or activation spaces that encode task-specific behaviors, have emerged as a promising tool for steering large language models (LLMs). However, existing approaches typically require fine-tuning or invasive manipulation of internal states, limiting their flexibility and scalability. We propose \textsc{DeCoVec} (Decoding Space based Task Vector), a training-free and non-invasive framework that constructs task vectors directly in the \textit{decoding space} by leveraging in-context learning (ICL). Specifically, \textsc{DeCoVec} captures the task essence as the difference between the output logit distributions of few-shot and zero-shot prompts, then steers generation by injecting this vector into the decoding process. Experiments across seven LLMs (0.5B--9B) on TruthfulQA, Math-500, and AQUA-RAT show that \textsc{DeCoVec} consistently outperforms standard few-shot baselines, with gains up to +5.50 average accuracy. Further analysis demonstrates that \textsc{DeCoVec} effectively suppresses generation degeneration and logical flaws while exhibiting strong robustness to demonstration ordering, all without incurring additional input token costs. Our method offers a training-free and non-invasive solution for LLM steering without requiring weight updates or auxiliary models.