Causal Interventions on Continuous Variables: A Case Study on Verb Bias in Steering Vectors for In-Context Learning
作者: Zhenghao Herbert Zhou, R. Thomas McCoy, Robert Frank
分类: cs.CL
发布日期: 2026-05-28
💡 一句话要点
提出连续变量因果干预方法,研究语言模型中动词偏向对上下文学习的影响
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 因果干预 连续变量 语言模型 动词偏向 上下文学习
📋 核心要点
- 现有语言模型因果干预主要针对离散特征,忽略了模型中大量存在的连续特征。
- 提出一种针对连续变量的因果干预方法,通过编辑激活向量实现反事实推理。
- 实验表明,动词偏向以因果方式存在于steering vectors中,并影响下游结构偏好。
📝 摘要(中文)
本文提出了一种针对连续变量的因果干预方法。该方法通过定位与目标变量相关的低维方向,并沿该方向编辑激活向量,实现对向量的反事实修改。本文将此方法应用于心理语言学中研究充分的连续特征——动词偏向(反映特定动词后倾向于出现的句法结构)。研究表明,动词偏向以因果方式存在于大型语言模型的steering vectors中:对动词偏向的反事实编辑会系统性地改变下游的结构偏好。此外,动词偏向与上下文学习相关。分析发现,steering vectors编码了误差信号,这些信号可能驱动上下文学习中观察到的误差驱动更新行为,但这些steering vectors的方面并非因果地用于下游生成。总而言之,这些结果表明因果干预可以应用于连续变量,但将连续变量与上下文学习联系起来仍然是一个挑战。
🔬 方法详解
问题定义:现有因果干预方法主要集中在离散特征上,例如语法数量。然而,语言模型也利用了大量的连续特征,例如动词偏向。如何对这些连续变量进行因果干预,并研究它们对语言模型行为的影响,是一个重要的研究问题。现有方法缺乏有效处理连续变量的手段,无法深入理解连续特征在语言模型中的作用。
核心思路:本文的核心思路是,首先识别激活向量空间中与目标连续变量相关的低维方向,然后沿着这个方向对向量进行编辑,从而实现对该变量的反事实干预。通过这种方式,可以控制连续变量的值,并观察其对下游任务的影响。这种方法允许研究者探究连续特征与语言模型行为之间的因果关系。
技术框架:该方法主要包含以下几个步骤:1) 收集激活向量和对应的连续目标变量的数据;2) 使用线性回归或其他方法,学习一个从激活向量到目标变量的映射,从而确定与目标变量相关的低维方向;3) 选择一个需要进行干预的激活向量,并指定一个反事实的目标变量值;4) 沿着学习到的方向,将激活向量移动到对应于反事实目标变量值的位置;5) 将修改后的激活向量输入到语言模型中,观察下游任务的输出变化。
关键创新:该方法最重要的创新在于,它提供了一种通用的框架,用于对语言模型中的连续变量进行因果干预。与以往主要关注离散特征的因果干预方法不同,该方法能够处理更广泛的特征类型,从而更全面地理解语言模型的内部机制。此外,该方法还能够用于研究连续特征与上下文学习之间的关系。
关键设计:在学习激活向量到目标变量的映射时,可以使用不同的线性回归方法,例如岭回归或LASSO回归,以防止过拟合。在确定干预方向后,需要选择合适的步长,以确保干预效果明显,同时避免过度干预导致模型性能下降。此外,还可以使用不同的评估指标来衡量干预效果,例如下游任务的准确率或困惑度。
🖼️ 关键图片
📊 实验亮点
实验结果表明,对steering vectors中动词偏向进行反事实编辑,能够显著改变下游的结构偏好,验证了动词偏向在语言模型中的因果作用。此外,研究还发现steering vectors编码了误差信号,可能驱动上下文学习中的误差驱动更新行为。但这些误差信号与下游生成没有因果关系,揭示了上下文学习机制的复杂性。
🎯 应用场景
该研究成果可应用于提升语言模型的可控性和可解释性。通过对连续变量进行因果干预,可以更好地理解语言模型的内部工作机制,并控制模型的行为。例如,可以利用该方法来调整模型的风格偏好,或者提高模型在特定任务上的性能。此外,该方法还可以用于评估语言模型的鲁棒性,例如,通过改变动词偏向来测试模型对不同句法结构的适应能力。
📄 摘要(原文)
Causal interventions in language model representations have largely targeted discrete features, like grammatical number. However, language models must also make use of features that are graded. We introduce a method for causal intervention on continuous variables: given activation vectors paired with a graded target variable, we localize a low-dimensional direction for that variable and use this direction to edit a vectors toward counterfactual target values. We apply this method to a continuous feature that is well-studied in psycholinguistics, namely verb bias (which reflects which syntactic structures tend to follow a given verb). We show that verb bias is causally represented in steering vectors extracted from large language models: counterfactual edits to verb bias systematically shift downstream structural preferences. Verb bias has also previously been linked to in-context learning; in further analyses, we find that steering vectors encode error signals that could drive the error-driven update behavior seen in in-context learning but that these aspects of the steering vectors are not causally used in downstream production. Overall, these results show causal interventions can be applied to continuous variables, though connecting continuous variables to in-context learning remains a challenge.