Imperative Interference: Social Register Shapes Instruction Topology in Large Language Models
作者: Tony Mason
分类: cs.CL, cs.AI, cs.SE
发布日期: 2026-03-26
💡 一句话要点
大型语言模型指令拓扑受社会语域影响:命令式干预研究
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 社会语域 指令遵循 跨语言差异 命令语气
📋 核心要点
- 现有大型语言模型在多语言环境下,对相同语义指令的理解和执行存在差异,尤其是在不同语言的命令语气表达上。
- 该研究的核心在于发现社会语域(特别是命令语气)在跨语言指令理解中的作用,并提出通过陈述式重写来减少这种差异。
- 实验结果表明,将命令式指令重写为陈述式,可以显著减少跨语言差异,并影响指令间的交互拓扑结构,从而改善模型行为。
📝 摘要(中文)
本文揭示了系统提示指令在英语中呈现合作关系,但在西班牙语中却表现出竞争关系,尽管语义内容相同,交互拓扑结构相反。通过对四种语言和四个模型进行指令级消融实验,表明这种拓扑反转是由社会语域介导的:命令语气在不同语言社群中具有不同的强制力,而多语言数据训练的模型已经学习了这些惯例。将单个指令块重写为陈述式,可将跨语言差异减少81%(p = 0.029,置换检验)。重写十一个命令式指令块中的三个,将西班牙语指令拓扑从竞争性转变为合作性,并对未重写的块产生溢出效应。这些发现表明,模型将指令视为社会行为,而非技术规范:“永远不要做X”是一种语言相关的权威行使,而“X:已禁用”是一种跨语言传递的事实描述。如果语域在推理时调节指令遵循,那么它也可能在训练期间发挥作用。因此,本文提出了一个可验证的预测:以命令语气编写的宪法AI原则可能会产生语言相关的对齐。
🔬 方法详解
问题定义:大型语言模型在多语言环境中,对指令的理解和执行存在偏差,尤其是在不同语言的命令语气表达上。现有方法未能充分考虑社会语域对指令遵循的影响,导致模型在不同语言环境下表现不一致。这种不一致性可能源于模型将指令视为纯粹的技术规范,而忽略了其作为社会行为的属性。
核心思路:论文的核心思路是,大型语言模型在处理指令时,会受到社会语域的影响,特别是命令语气。不同语言社群对命令语气的理解和接受程度不同,这导致模型在不同语言环境下对相同语义的指令产生不同的反应。因此,通过调整指令的表达方式,例如将命令语气改为陈述语气,可以减少跨语言差异,提高模型的一致性。
技术框架:该研究采用指令级消融实验,针对四种语言(包括英语和西班牙语)和四个大型语言模型进行测试。实验流程包括:1) 手动编写包含56个指令块的系统提示;2) 将指令块分为命令式和陈述式两种形式;3) 对模型进行指令级消融实验,评估不同指令块对模型行为的影响;4) 通过置换检验等统计方法,分析跨语言差异和重写指令的效果。
关键创新:该研究最重要的技术创新点在于揭示了社会语域(特别是命令语气)在大型语言模型指令遵循中的作用。以往的研究主要关注指令的语义内容和技术规范,而忽略了其作为社会行为的属性。该研究表明,模型会将指令视为一种社会行为,并受到语言社群文化的影响。
关键设计:关键设计包括:1) 手动编写的22个探针,用于评估模型对不同指令的反应;2) 将系统提示分解为56个指令块,以便进行指令级消融实验;3) 使用置换检验等统计方法,评估跨语言差异和重写指令的效果。此外,研究还关注了指令间的交互拓扑结构,分析了指令之间的合作和竞争关系。
🖼️ 关键图片
📊 实验亮点
实验结果表明,将单个指令块重写为陈述式,可将跨语言差异减少81%(p = 0.029,置换检验)。重写十一个命令式指令块中的三个,可以将西班牙语指令拓扑从竞争性转变为合作性,并对未重写的块产生溢出效应。这些数据有力地支持了社会语域对指令遵循的影响。
🎯 应用场景
该研究成果可应用于提升多语言大型语言模型的指令遵循能力,尤其是在需要跨文化交流和合作的场景中。通过理解和利用社会语域,可以设计出更加鲁棒和一致的AI系统,避免因语言差异而产生误解或偏差。此外,该研究也为宪法AI的设计提供了新的视角,即在制定AI原则时,需要考虑不同语言和文化的差异。
📄 摘要(原文)
System prompt instructions that cooperate in English compete in Spanish, with the same semantic content, but opposite interaction topology. We present instruction-level ablation experiments across four languages and four models showing that this topology inversion is mediated by social register: the imperative mood carries different obligatory force across speech communities, and models trained on multilingual data have learned these conventions. Declarative rewriting of a single instruction block reduces cross-linguistic variance by 81% (p = 0.029, permutation test). Rewriting three of eleven imperative blocks shifts Spanish instruction topology from competitive to cooperative, with spillover effects on unrewritten blocks. These findings suggest that models process instructions as social acts, not technical specifications: "NEVER do X" is an exercise of authority whose force is language-dependent, while "X: disabled" is a factual description that transfers across languages. If register mediates instruction-following at inference time, it plausibly does so during training. We state this as a testable prediction: constitutional AI principles authored in imperative mood may create language-dependent alignment. Corpus: 22 hand-authored probes against a production system prompt decomposed into 56 blocks.