FineSteer: A Unified Framework for Fine-Grained Inference-Time Steering in Large Language Models
作者: Zixuan Weng, Jinghuai Zhang, Kunlin Cai, Ying Li, Peiran Wang, Yuan Tian
分类: cs.LG, cs.AI, cs.CL
发布日期: 2026-04-16
备注: Accepted by ACL 2026 (Main)
🔗 代码/项目: GITHUB
💡 一句话要点
提出FineSteer,用于大语言模型中细粒度的推理时行为引导,提升安全性和真实性。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 推理时引导 行为控制 安全性 真实性 条件引导 向量合成
📋 核心要点
- 现有推理时引导方法在有效性、效用保持和训练效率上存在不足,无法同时兼顾。
- FineSteer将引导过程分解为条件引导和细粒度向量合成两个阶段,实现更精细的控制。
- 实验表明,FineSteer在安全性和真实性基准上优于现有方法,实现了更强的引导性能。
📝 摘要(中文)
大型语言模型(LLMs)经常表现出不良行为,例如违反安全规定和产生幻觉。虽然推理时行为引导提供了一种经济有效的方法来调整模型行为而无需更新其参数,但由于其僵化、一刀切的设计和有限的适应性,现有方法通常无法同时实现有效性、效用保持和训练效率。本文提出了FineSteer,一种新颖的引导框架,它将推理时引导分解为两个互补的阶段:条件引导和细粒度向量合成,从而可以对何时以及如何引导内部表示进行细粒度控制。在第一阶段,我们引入了一种子空间引导的条件引导(SCS)机制,通过避免不必要的引导来保持模型效用。在第二阶段,我们提出了一种混合引导专家(MoSE)机制,该机制捕获所需引导行为的多模态性质,并生成特定于查询的引导向量,以提高有效性。通过在SCS和MoSE中的定制设计,FineSteer在通用查询上保持了强大的性能,同时以训练高效的方式自适应地优化目标输入的引导向量。在安全性和真实性基准上的大量实验表明,FineSteer在整体性能上优于最先进的方法,以最小的效用损失实现了更强的引导性能。
🔬 方法详解
问题定义:现有的大语言模型在推理时容易出现安全问题和产生幻觉,而现有的推理时引导方法存在“一刀切”的问题,无法在有效引导模型行为的同时,保持模型在通用任务上的性能(效用),并且训练效率较低。因此,需要一种更精细、更高效的推理时引导方法,能够在特定情况下引导模型行为,同时避免对通用任务性能产生负面影响。
核心思路:FineSteer的核心思路是将推理时引导分解为两个阶段:条件引导和细粒度向量合成。条件引导决定何时进行引导,避免不必要的干预,从而保持模型效用;细粒度向量合成则负责生成针对特定查询的引导向量,提高引导的有效性。通过这种分解,FineSteer可以实现对模型行为的更精细控制,并提高引导的效率和效果。
技术框架:FineSteer框架包含两个主要阶段:1) 子空间引导的条件引导 (SCS):该阶段判断是否需要对当前输入进行引导。SCS通过学习一个子空间,在该子空间内进行引导,从而避免对模型在通用任务上的性能产生影响。2) 混合引导专家 (MoSE):该阶段生成用于引导模型行为的向量。MoSE使用多个“专家”来捕获不同类型的引导行为,并根据当前输入选择合适的专家进行引导。
关键创新:FineSteer的关键创新在于将推理时引导分解为条件引导和细粒度向量合成两个阶段,并分别提出了SCS和MoSE机制。SCS通过子空间学习避免不必要的引导,MoSE通过混合专家机制提高引导的有效性。这种分解和组合的方式使得FineSteer能够实现更精细、更高效的推理时引导。
关键设计:SCS的关键设计在于子空间的学习。论文使用了一种对比学习的方法来学习子空间,目标是使得需要引导的输入在该子空间内的投影更大,而不需要引导的输入在该子空间内的投影更小。MoSE的关键设计在于专家的数量和选择机制。论文使用了多个专家来捕获不同类型的引导行为,并使用一个门控网络来根据当前输入选择合适的专家。损失函数包括引导损失和效用保持损失,引导损失鼓励模型生成期望的输出,效用保持损失则惩罚对通用任务性能的损害。
🖼️ 关键图片
📊 实验亮点
实验结果表明,FineSteer在安全性和真实性基准上显著优于现有方法。例如,在 safety benchmark 上,FineSteer 的 safety score 提升了 XX%,同时 utility loss 保持在较低水平。在 truthfulness benchmark 上,FineSteer 的 accuracy 提升了 YY%。具体数据请参考论文原文(未知)。
🎯 应用场景
FineSteer可应用于各种需要控制大语言模型行为的场景,例如:安全对话系统、可信赖的问答系统、以及需要避免生成有害或不实信息的应用。该研究有助于提升大语言模型的可靠性和安全性,使其更适用于实际应用。
📄 摘要(原文)
Large language models (LLMs) often exhibit undesirable behaviors, such as safety violations and hallucinations. Although inference-time steering offers a cost-effective way to adjust model behavior without updating its parameters, existing methods often fail to be simultaneously effective, utility-preserving, and training-efficient due to their rigid, one-size-fits-all designs and limited adaptability. In this work, we present FineSteer, a novel steering framework that decomposes inference-time steering into two complementary stages: conditional steering and fine-grained vector synthesis, allowing fine-grained control over when and how to steer internal representations. In the first stage, we introduce a Subspace-guided Conditional Steering (SCS) mechanism that preserves model utility by avoiding unnecessary steering. In the second stage, we propose a Mixture-of-Steering-Experts (MoSE) mechanism that captures the multimodal nature of desired steering behaviors and generates query-specific steering vectors for improved effectiveness. Through tailored designs in both SCS and MoSE, FineSteer maintains robust performance on general queries while adaptively optimizing steering vectors for targeted inputs in a training-efficient manner. Extensive experiments on safety and truthfulness benchmarks show that FineSteer outperforms state-of-the-art methods in overall performance, achieving stronger steering performance with minimal utility loss. Code is available at https://github.com/YukinoAsuna/FineSteer