Faithful Bi-Directional Model Steering via Distribution Matching and Distributed Interchange Interventions

作者: Yuntai Bao, Xuhong Zhang, Jintao Chen, Ge Su, Yuxiang Cai, Hao Peng, Bing Sun, Haiqin Weng, Liu Yan, Jianwei Yin

分类: cs.LG, cs.CL

发布日期: 2026-02-05

备注: 55 pages, 25 figures; accepted for ICLR 2026

🔗 代码/项目: GITHUB

💡 一句话要点

提出Concept DAS，通过分布匹配和分布式交换干预实现可信的双向模型引导

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 模型引导 分布式对齐搜索 分布匹配 分布式交换干预 因果干预 安全对齐 反事实推理

📋 核心要点

现有模型引导方法过度依赖优化目标，易过拟合且生成不自然输出，未能忠实识别模型内部机制。
Concept DAS (CDAS) 通过分布匹配和分布式交换干预，实现更可信的双向模型引导，避免了直接的概率最大化。
实验表明，CDAS 在安全场景下表现出系统性的引导能力，并能保持模型通用性，尤其受益于模型规模的增加。

📝 摘要（中文）

基于干预的模型引导提供了一种轻量级且可解释的替代方案，以取代提示和微调。然而，通过采用微调中的强优化目标，现有方法容易过拟合，并且常常表现不佳，有时会生成不自然的输出。我们假设这是因为有效的引导需要忠实地识别内部模型机制，而不是强制执行外部偏好。为此，我们基于分布式对齐搜索（DAS）的原则，即因果变量定位的标准，提出了一种新的引导方法：Concept DAS（CDAS）。虽然我们采用了DAS的核心机制，即分布式交换干预（DII），但我们引入了一种新颖的分布匹配目标，通过将干预后的输出分布与反事实分布对齐，专门为引导任务定制。CDAS与先前工作的主要区别在于：首先，它通过弱监督分布匹配而不是概率最大化来学习干预；其次，它使用DII，自然地实现双向引导，并允许从数据中导出引导因子，从而减少了超参数调整所需的工作量，并产生更忠实和稳定的控制。在一个大规模模型引导基准AxBench上，我们表明CDAS并不总是优于偏好优化方法，但可能更多地受益于模型规模的增加。在两个与安全相关的案例研究中，覆盖安全对齐模型的拒绝行为和中和思维链后门，CDAS实现了系统的引导，同时保持了一般的模型效用。这些结果表明，CDAS是对偏好优化方法的补充，并且有条件地构成了基于干预的模型引导的稳健方法。我们的代码可在https://github.com/colored-dye/concept_das获得。

🔬 方法详解

问题定义：现有基于干预的模型引导方法，如直接优化干预后的输出概率，容易受到过拟合的影响，导致生成不自然的输出，并且未能真正理解和利用模型内部的因果机制。这些方法往往将模型引导视为一个优化问题，而非一个理解和控制模型行为的问题。

核心思路：CDAS的核心思路是通过分布匹配来学习干预，而不是直接最大化目标概率。具体来说，它将干预后的模型输出分布与期望的反事实分布对齐。这种方法旨在更忠实地反映模型内部的因果关系，并避免过度拟合外部偏好。通过分布匹配，CDAS能够更稳定、更自然地引导模型行为。

技术框架：CDAS建立在分布式对齐搜索（DAS）的框架之上，并采用了分布式交换干预（DII）的核心机制。整体流程包括：1) 使用DII对模型内部的多个位置进行干预；2) 通过分布匹配损失函数，将干预后的输出分布与目标分布对齐；3) 优化干预参数，使得干预后的模型行为符合预期。该框架允许双向引导，即可以增强或抑制特定概念。

关键创新：CDAS的关键创新在于使用分布匹配作为学习干预的目标函数，以及利用DII实现双向引导。与现有方法不同，CDAS不直接优化输出概率，而是试图学习一种干预，使得干预后的模型行为与期望的反事实行为尽可能相似。此外，DII允许从数据中学习引导因子，减少了手动调整超参数的需求。

关键设计：CDAS的关键设计包括：1) 分布匹配损失函数：用于衡量干预后的输出分布与目标分布之间的差异，可以使用KL散度、Wasserstein距离等；2) 分布式交换干预（DII）：允许同时干预模型内部的多个位置，从而实现更精细的控制；3) 弱监督：CDAS只需要目标分布的信息，而不需要具体的标签，降低了标注成本。

🖼️ 关键图片

📊 实验亮点

在AxBench基准测试中，CDAS表现出与偏好优化方法相当的性能，并且在模型规模增加时表现出更大的潜力。在安全相关的案例研究中，CDAS成功地覆盖了安全对齐模型的拒绝行为，并中和了思维链后门，同时保持了模型的一般效用，表明其在安全关键应用中的鲁棒性。

🎯 应用场景

CDAS可应用于安全关键场景，例如覆盖安全对齐模型的拒绝行为，中和思维链后门，以及控制模型的生成风格和内容。该方法在医疗、金融等领域具有潜在应用价值，可以提高AI系统的可靠性和安全性，并促进人与AI的协作。

📄 摘要（原文）

Intervention-based model steering offers a lightweight and interpretable alternative to prompting and fine-tuning. However, by adapting strong optimization objectives from fine-tuning, current methods are susceptible to overfitting and often underperform, sometimes generating unnatural outputs. We hypothesize that this is because effective steering requires the faithful identification of internal model mechanisms, not the enforcement of external preferences. To this end, we build on the principles of distributed alignment search (DAS), the standard for causal variable localization, to propose a new steering method: Concept DAS (CDAS). While we adopt the core mechanism of DAS, distributed interchange intervention (DII), we introduce a novel distribution matching objective tailored for the steering task by aligning intervened output distributions with counterfactual distributions. CDAS differs from prior work in two main ways: first, it learns interventions via weak-supervised distribution matching rather than probability maximization; second, it uses DIIs that naturally enable bi-directional steering and allow steering factors to be derived from data, reducing the effort required for hyperparameter tuning and resulting in more faithful and stable control. On AxBench, a large-scale model steering benchmark, we show that CDAS does not always outperform preference-optimization methods but may benefit more from increased model scale. In two safety-related case studies, overriding refusal behaviors of safety-aligned models and neutralizing a chain-of-thought backdoor, CDAS achieves systematic steering while maintaining general model utility. These results indicate that CDAS is complementary to preference-optimization approaches and conditionally constitutes a robust approach to intervention-based model steering. Our code is available at https://github.com/colored-dye/concept_das.

Faithful Bi-Directional Model Steering via Distribution Matching and Distributed Interchange Interventions

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理