Fast & Faithful Function Vectors

📄 arXiv: 2606.05079v1 📥 PDF

作者: Minh An Pham, Anton Segeler, Thomas Wiegand, Wojciech Samek, Sebastian Lapuschkin, Patrick Kahardipraja, Reduan Achtibat

分类: cs.CL, cs.LG

发布日期: 2026-06-03


💡 一句话要点

提出快速且可靠的函数向量以优化大语言模型的学习效果

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 函数向量 大型语言模型 注意力机制 层次相关传播 分布式引导 机器学习优化 自然语言处理

📋 核心要点

  1. 现有的函数向量设计尚未充分探索,导致在引导大型语言模型时效率和准确性不足。
  2. 本文提出通过梯度归因与层次相关传播(LRP)优化注意力头选择,从而提升函数向量的效率与准确性。
  3. 实验结果显示,分布式FV引导方法在准确性上优于传统的简单聚合,显著提升了模型性能。

📝 摘要(中文)

函数向量(FVs)是通过上下文学习生成的任务表示,可用于引导大型语言模型(LLMs)。然而,FVs的设计选择尚未得到充分探讨。本文研究了在指令中变更FV定义的影响,主要从注意力头选择和引导两个维度进行分析。结果表明,采用基于梯度的归因方法(如层次相关传播LRP)在效率和准确性上均有显著提升;而在FV引导方面,分布式应用相较于简单聚合能够实现更高的准确性。我们的代码已公开可用。

🔬 方法详解

问题定义:本文旨在解决现有函数向量在引导大型语言模型时效率和准确性不足的问题。现有方法在FV设计上缺乏灵活性,导致性能不佳。

核心思路:论文提出通过优化注意力头的选择和引导方式来提升函数向量的表现。具体而言,采用基于梯度的归因方法来选择注意力头,并在引导过程中使用分布式策略。

技术框架:整体架构包括两个主要模块:注意力头选择模块和FV引导模块。注意力头选择模块利用LRP进行头部选择,而FV引导模块则实现分布式引导策略。

关键创新:最重要的创新点在于通过LRP优化注意力头选择,显著提升了模型的效率和准确性。这一方法与传统的简单聚合方法形成鲜明对比。

关键设计:在设计中,采用了基于梯度的归因方法来评估注意力头的贡献,并在FV引导中引入分布式策略,确保信息的有效传播和利用。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,采用LRP进行注意力头选择后,模型的效率和准确性均有显著提升,分布式FV引导方法的准确性较简单聚合方法提高了约XX%(具体数据需根据实验结果填写)。

🎯 应用场景

该研究的潜在应用领域包括自然语言处理、对话系统和智能助手等。通过优化函数向量的设计,可以显著提升大型语言模型在特定任务上的表现,进而推动智能系统的实际应用和发展。

📄 摘要(原文)

Function vectors (FVs) are task representations elicited during in-context learning that can be used to steer Large Language Models (LLMs). However, design choices in their formulation remain underexplored. In this work, we study the impact of varying FV definitions for instructions along two degrees of freedom: attention head selection and steering. For head selection, using gradient-based attributions with Layer-wise Relevance Propagation (LRP) substantially improves efficiency as well as accuracy. For FV steering, applying it in a distributed manner yields a higher accuracy compared to simple aggregation. Our code is publicly available.