How LLMs Follow Instructions: Skillful Coordination, Not a Universal Mechanism
作者: Elisabetta Rocchetti, Alfio Ferrara
分类: cs.AI
发布日期: 2026-04-07
💡 一句话要点
揭示大语言模型指令遵循机制:技能协调而非通用机制
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 指令遵循 大语言模型 诊断性探测 技能协调 表征学习
📋 核心要点
- 现有研究未能充分理解指令调优后大语言模型指令遵循的内在机制,是通用机制还是技能组合?
- 该研究通过诊断性探测,分析模型在不同任务上的表现,揭示指令遵循并非单一通用机制。
- 实验结果表明,任务间表征共享有限,技能迁移依赖相似性,约束满足是动态监控过程。
📝 摘要(中文)
指令调优通常被认为赋予了语言模型一种领域通用的指令遵循能力,但其潜在机制仍然知之甚少。指令遵循是依赖于一种通用机制,还是依赖于组合技能的部署?我们通过在三个指令调优模型中的九个不同任务上进行诊断性探测来研究这个问题。我们的分析提供了反对通用机制的汇聚证据。首先,跨所有任务训练的通用探针始终不如特定于任务的专家,表明表征共享有限。其次,跨任务迁移较弱,并且按技能相似性聚类。第三,因果消融揭示了稀疏的非对称依赖关系,而不是共享的表征。任务也按层中的复杂性分层,结构约束出现较早,语义任务出现较晚。最后,时间分析表明,约束满足作为生成过程中的动态监控来运作,而不是生成前的规划。这些发现表明,指令遵循最好被描述为各种语言能力的巧妙协调,而不是部署单一的抽象约束检查过程。
🔬 方法详解
问题定义:现有研究普遍认为指令调优赋予了LLM通用的指令遵循能力,但缺乏对其内在机制的深入理解。现有方法难以区分指令遵循是依赖于单一的通用机制,还是依赖于多种技能的组合运用。
核心思路:该论文的核心思路是通过诊断性探测(diagnostic probing)的方法,深入分析指令调优后的LLM在执行不同任务时的内部表征和运作方式,从而揭示指令遵循的真实机制。作者假设如果存在通用机制,那么在不同任务上训练的探针应该具有相似的性能,并且任务间的知识迁移应该比较容易。
技术框架:该研究的技术框架主要包括以下几个步骤:1) 选择三个指令调优的LLM作为研究对象;2) 选择九个具有代表性的任务,涵盖不同的语言技能和领域;3) 使用诊断性探针技术,训练探针来预测模型在执行任务时的内部状态;4) 分析探针的性能、跨任务迁移能力以及因果关系,从而推断指令遵循的机制。
关键创新:该论文的关键创新在于使用了诊断性探测技术来研究LLM的指令遵循机制,并从多个角度提供了证据,证明指令遵循并非单一的通用机制,而是多种语言技能的巧妙协调。这种研究方法为理解LLM的内部运作方式提供了新的视角。
关键设计:在实验设计方面,作者精心选择了九个任务,力求覆盖不同的语言技能和领域,从而保证研究结果的泛化性。在探针训练方面,作者使用了多种探针,包括线性探针和非线性探针,以捕捉不同类型的表征。在因果分析方面,作者使用了因果消融(causal ablation)的方法,来研究不同层之间的依赖关系。
🖼️ 关键图片
📊 实验亮点
实验结果表明,通用探针的性能明显低于特定任务的专家探针,表明表征共享有限。跨任务迁移效果不佳,且迁移效果与任务的技能相似性相关。因果消融实验揭示了任务间的稀疏非对称依赖关系,而非共享表征。任务复杂度随网络层数增加而分层,结构约束出现较早,语义任务出现较晚。
🎯 应用场景
该研究成果有助于更好地理解和优化大语言模型的指令遵循能力,从而提升其在各种自然语言处理任务中的性能。此外,该研究也为开发更高效、更可控的语言模型提供了新的思路,例如,可以针对不同的任务训练不同的技能模块,然后通过协调机制将它们组合起来。
📄 摘要(原文)
Instruction tuning is commonly assumed to endow language models with a domain-general ability to follow instructions, yet the underlying mechanism remains poorly understood. Does instruction-following rely on a universal mechanism or compositional skill deployment? We investigate this through diagnostic probing across nine diverse tasks in three instruction-tuned models. Our analysis provides converging evidence against a universal mechanism. First, general probes trained across all tasks consistently underperform task-specific specialists, indicating limited representational sharing. Second, cross-task transfer is weak and clustered by skill similarity. Third, causal ablation reveals sparse asymmetric dependencies rather than shared representations. Tasks also stratify by complexity across layers, with structural constraints emerging early and semantic tasks emerging late. Finally, temporal analysis shows constraint satisfaction operates as dynamic monitoring during generation rather than pre-generation planning. These findings indicate that instruction-following is better characterized as skillful coordination of diverse linguistic capabilities rather than deployment of a single abstract constraint-checking process.