Focus On This, Not That! Steering LLMs with Adaptive Feature Specification

📄 arXiv: 2410.22944v4 📥 PDF

作者: Tom A. Lamb, Adam Davies, Alasdair Paren, Philip H. S. Torr, Francesco Pinto

分类: cs.LG, cs.AI, cs.CL

发布日期: 2024-10-30 (更新: 2025-06-05)

备注: 36pages, 19 figures


💡 一句话要点

提出Focus Instruction Tuning,通过自适应特征指定引导LLM行为

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 指令调优 大型语言模型 特征指定 模型引导 鲁棒性 公平性 可控性 社会偏见

📋 核心要点

  1. 现有LLM易受训练数据中的虚假特征影响,导致行为偏差和对齐问题,推理时的引导方法通常是事后的。
  2. FIT通过训练LLM关注特定特征并忽略其他特征来调节响应,从而实现基于特征的灵活行为控制。
  3. 实验表明FIT能有效引导LLM行为,提高鲁棒性,减轻社会偏见,并泛化到新的特征和分布。

📝 摘要(中文)

尽管指令调优(IT)在训练大型语言模型(LLM)方面取得了成功,但这些模型通常会利用从训练数据中学到的虚假或有偏见的特征,并可能变得不一致,从而导致不良行为。虽然现有的技术可以在推理时引导模型行为,但它们通常是事后的,并没有将引导作为一种内在的模型特征嵌入。在这项工作中,我们介绍了Focus Instruction Tuning (FIT),它训练LLM通过关注特定特征而忽略其他特征来调节它们的响应,从而根据指定的特征产生不同的行为。在不同的基准测试中,我们证明了FIT:(i)在推理时成功地引导行为;(ii)通过放大核心任务信号和降低虚假线索的权重来提高鲁棒性;(iii)通过抑制人口统计属性来减轻社会偏见;(iv)在分布偏移和先前未见过的焦点特征下推广。因此,FIT为构建更健壮、更公平和更易于控制的LLM提供了一种轻量级的内在机制。

🔬 方法详解

问题定义:现有大型语言模型(LLM)在指令调优后,容易受到训练数据中存在的虚假相关性和偏差的影响,导致模型在推理时产生不期望的行为。现有的引导方法通常是事后调整,无法将引导能力作为模型内在属性。

核心思路:论文的核心思路是通过引入Focus Instruction Tuning (FIT) 框架,训练LLM能够根据指定的特征(focus features)来调节其响应,从而实现对模型行为的细粒度控制。通过显式地告知模型应该关注哪些特征,忽略哪些特征,来引导模型学习更鲁棒和公平的表示。

技术框架:FIT框架主要包含以下几个阶段:1) 数据准备:构建包含指令、输入和期望输出的数据集,并为每个样本指定需要关注的特征。2) 模型训练:使用指令调优的方法,训练LLM根据输入的指令和指定的特征生成相应的输出。训练过程中,模型需要学习区分哪些特征是重要的,哪些特征是不重要的。3) 推理阶段:在推理时,通过指定不同的特征,可以引导模型产生不同的行为。

关键创新:FIT的关键创新在于将特征指定作为一种内在的模型能力,而不是事后的调整。通过在训练阶段就让模型学习如何根据特征来调节响应,可以更有效地控制模型的行为,并提高模型的鲁棒性和公平性。此外,FIT还具有良好的泛化能力,可以推广到新的特征和分布。

关键设计:FIT的关键设计包括:1) 特征指定方式:论文采用了一种灵活的特征指定方式,允许指定多个特征,并可以指定需要关注的特征和需要忽略的特征。2) 损失函数:论文采用了一种标准的指令调优损失函数,并在此基础上添加了一个正则化项,用于鼓励模型关注指定的特征,忽略其他特征。3) 数据增强:论文采用了一种数据增强方法,用于生成更多包含不同特征组合的训练样本。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,FIT在多个基准测试中都取得了显著的性能提升。例如,在鲁棒性测试中,FIT能够有效降低模型对虚假线索的依赖,提高模型的泛化能力。在偏见缓解测试中,FIT能够有效抑制模型中的社会偏见,提高模型的公平性。此外,FIT还具有良好的泛化能力,可以推广到新的特征和分布。

🎯 应用场景

FIT可应用于各种需要控制LLM行为的场景,例如:提高模型在对抗性环境下的鲁棒性,减轻模型中的社会偏见,以及根据用户需求定制模型的行为。该方法在医疗、金融等敏感领域具有重要的应用价值,可以提高LLM的可信度和安全性。

📄 摘要(原文)

Despite the success of Instruction Tuning (IT) in training large language models (LLMs), such models often leverage spurious or biased features learnt from their training data and can become misaligned, leading to undesired behaviours. While existing techniques can steer model behaviour at inference-time, they are often post-hoc and do not embed steering as an intrinsic model feature. In this work, we introduce Focus Instruction Tuning (FIT), which trains LLMs to condition their responses by focusing on specific features whilst ignoring others, leading to different behaviours based on what features are specified. Across diverse benchmarks, we demonstrate that FIT: (i) successfully steers behaviour at inference time; (ii) increases robustness by amplifying core task signals and down-weighting spurious cues; (iii) mitigates social bias by suppressing demographic attributes; and (iv) generalises under distribution shifts and to previously unseen focus features. FIT therefore offers a lightweight, intrinsic mechanism for building more robust, fair, and easily controllable LLMs.