Multi-Adapter Representation Interventions via Energy Calibration

📄 arXiv: 2605.28722v1 📥 PDF

作者: Manjiang Yu, Hongji Li, Junwei Chen, Xue Li, Priyanka Singh, Yang Cao, Lijie Hu

分类: cs.AI

发布日期: 2026-05-27

备注: Accepted by ICML 2026

🔗 代码/项目: GITHUB


💡 一句话要点

提出MARI:通过能量校准的多适配器表征干预,提升大语言模型对齐效果。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 表征干预 多适配器 能量校准 大语言模型对齐 自适应干预

📋 核心要点

  1. 现有表征干预方法对所有输入采用统一干预,忽略了不同样本间干预方向和强度的差异,导致模型泛化能力下降。
  2. MARI通过引入竞争性多适配器机制,使模型能够捕获非线性校正模式,并自适应地确定不同样本的干预方向和强度。
  3. 实验结果表明,MARI在提升模型对齐性能的同时,保持甚至提高了模型在MMLU和ARC等任务上的一般能力。

📝 摘要(中文)

表征干预是一种有前景的范式,用于在不修改模型权重的情况下,使大型语言模型与期望的行为对齐。现有方法通常对所有输入统一应用固定的干预。然而,我们发现适当的干预方向和强度在不同样本之间差异很大,这种不加区分的干预会导致良性输入上的一般能力下降。为了解决这些挑战,我们提出了基于能量校准的多适配器表征干预(MARI)。具体来说,我们引入了一种竞争性的多适配器机制,其中专门的专家捕获非线性校正模式,并自适应地确定不同样本的适当干预方向和强度。此外,我们设计了一个基于能量的门控模块,该模块利用内部传播动态来区分适用于干预的输入。在不同的模型系列和参数规模上进行的大量实验表明,MARI实现了最先进的对齐性能。我们的方法显著提高了TruthfulQA、BBQ和安全基准的性能,同时保持甚至提高了MMLU和ARC等任务的一般能力。我们的代码可在https://github.com/V1centNevwake/MARI 获取。

🔬 方法详解

问题定义:现有表征干预方法在对齐大型语言模型时,通常采用固定的干预策略,即对所有输入样本施加相同的干预方向和强度。这种一刀切的方法忽略了不同样本的特性,导致对某些“良性”输入产生负面影响,降低了模型的泛化能力和通用性能。因此,如何根据输入样本的特性自适应地调整干预策略,是本文要解决的核心问题。

核心思路:MARI的核心思路是引入一个多适配器机制,每个适配器作为一个专家,负责捕获特定的非线性校正模式。通过竞争机制,模型能够根据输入样本的特性,选择合适的适配器进行干预,从而实现自适应的干预策略。此外,MARI还引入了一个基于能量的门控模块,用于判断输入样本是否需要进行干预,避免对不需要干预的样本造成干扰。

技术框架:MARI的技术框架主要包含两个核心模块:多适配器模块和能量门控模块。多适配器模块由多个并行的适配器组成,每个适配器学习一种特定的校正模式。能量门控模块则利用模型的内部传播动态,计算一个能量值,用于判断输入样本是否需要进行干预。整体流程是:首先,输入样本经过能量门控模块,判断是否需要干预;如果需要干预,则通过多适配器模块,选择合适的适配器进行干预;最后,将干预后的表征输入到模型的后续层进行处理。

关键创新:MARI的关键创新在于引入了竞争性的多适配器机制和基于能量的门控模块。多适配器机制使得模型能够根据输入样本的特性,自适应地选择合适的干预策略,从而提高了干预的有效性。能量门控模块则能够避免对不需要干预的样本造成干扰,从而提高了模型的泛化能力。与现有方法相比,MARI能够更有效地对齐大型语言模型,同时保持甚至提高模型的一般能力。

关键设计:多适配器模块的关键设计在于适配器的数量和结构。论文中采用了多个并行的适配器,每个适配器由一个两层的前馈神经网络组成。能量门控模块的关键设计在于能量函数的定义。论文中采用了一种基于模型内部传播动态的能量函数,该函数能够有效地判断输入样本是否需要进行干预。此外,论文还设计了一个损失函数,用于训练多适配器模块和能量门控模块,该损失函数旨在提高模型的对齐性能,同时保持模型的一般能力。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,MARI在TruthfulQA、BBQ和安全基准上取得了显著的性能提升,同时保持甚至提高了MMLU和ARC等任务上的一般能力。例如,在TruthfulQA上,MARI的性能提升了超过5个百分点,表明其能够更有效地提高模型的事实性。此外,MARI在安全基准上的性能也得到了显著提升,表明其能够更有效地避免模型生成有害内容。

🎯 应用场景

MARI技术可应用于各种需要对齐大型语言模型的场景,例如安全对话、避免生成有害内容、提高模型的事实性和可靠性等。该技术能够提升模型在特定任务上的表现,同时保持其通用能力,具有广泛的应用前景。未来,该技术还可以扩展到其他类型的模型和任务中,例如图像生成、语音识别等。

📄 摘要(原文)

Representation intervention has emerged as a promising paradigm for aligning large language models toward desired behaviors without modifying model weights. Existing methods typically apply a fixed intervention uniformly across all inputs. However, we find that the appropriate intervention direction and strength vary substantially across samples, and such indiscriminate intervention leads to degradation of general capabilities on benign inputs. To address these challenges, we propose Multi-Adapter Representation Interventions via Energy Calibration (MARI). Specifically, we introduce a competitive multi-adapter mechanism in which specialized experts capture non-linear correction patterns and adaptively determine the appropriate intervention direction and strength for different samples. Furthermore, we design an energy-based gating module that leverages internal propagation dynamics to distinguish inputs that are applicable for intervention. Extensive experiments across diverse model families and parameter scales demonstrate that MARI achieves state-of-the-art alignment performance. Our method significantly improves performance on TruthfulQA, BBQ, and safety benchmarks, while maintaining and even improving general capabilities on tasks such as MMLU and ARC. Our code is available at https://github.com/V1centNevwake/MARI.