The Atomic Instruction Gap: Instruction-Tuned LLMs Struggle with Simple, Self-Contained Directives
作者: Henry Lim, Kwan Hui Lim
分类: cs.CL
发布日期: 2025-10-20
备注: 11 pages, 1 figure, 8 tables
💡 一句话要点
揭示指令调优大模型在执行简单指令时存在的原子指令差距
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 指令调优 大型语言模型 原子指令 指令遵循 格式偏差
📋 核心要点
- 现有指令调优大模型在执行简单、自包含指令时表现不足,这限制了其在复杂任务中的应用。
- 该研究通过系统性地改变选项标签格式,评估模型在不同指令范式下的性能,揭示了模型对指令格式的敏感性。
- 实验表明,模型在没有指令或选项内容时性能显著下降,且少量示例无法有效提升鲁棒性,突显了原子指令差距。
📝 摘要(中文)
指令调优的大型语言模型(IT-LLM)表现出强大的零样本推理能力,但它们执行简单、自包含指令的能力仍未得到充分探索,而这却是复杂指令遵循的基础。我们通过系统地改变选项标签的格式(字母、数字、罗马),同时保持其在四种范式下的含义相同,在修改后的MMLU和MMLU-Pro基准上评估了20个IT-LLM,结果表明:(1)在显式指令下,标签变化会导致性能大幅波动(例如,罗马数字与数字相比下降-30.45%),揭示了指令格式偏差。(2)在没有指令的情况下,性能进一步下降(高达-10.84%),标签敏感性增强,突显了显式指导的作用。(3)当选项内容被移除时,模型除了数字标签外,都无法达到随机选择的基线水平,表明对原子指令的遵循较弱。(4)少量示例无法显著提高鲁棒性或保真度,生成分析显示存在持续的标签错误,尤其是在非数字格式下。在不同模型规模中,较大的LLM实现了更高的准确率,但在指令遵循方面仍然不一致。这些结果揭示了当前指令调优范式的不足,并强调需要评估方法和训练策略,明确针对原子指令的遵循。
🔬 方法详解
问题定义:现有指令调优大模型虽然在零样本推理方面表现出色,但在执行简单的、自包含的指令时存在困难。具体来说,模型对指令中选项标签的格式(如字母、数字、罗马数字)非常敏感,即使这些格式在语义上是等价的。这种对格式的依赖表明模型未能真正理解指令的本质,而是依赖于表面上的模式匹配。现有方法缺乏对这种“原子指令差距”的有效评估和解决。
核心思路:该研究的核心思路是通过系统性地改变选项标签的格式,来评估模型对指令的真正理解程度。通过对比不同标签格式下的性能,可以揭示模型对指令格式的依赖程度。此外,通过移除选项内容,可以进一步测试模型是否能够遵循“选择标签”这一原子指令,而不是依赖于选项的具体内容。
技术框架:该研究使用修改后的MMLU和MMLU-Pro基准进行评估。主要包含以下几个步骤:1) 系统性地改变选项标签的格式(字母、数字、罗马数字);2) 在四种不同的指令范式下评估模型性能:a) 带有显式指令;b) 没有显式指令;c) 移除选项内容;d) 使用少量示例。3) 对模型的生成结果进行分析,以识别标签错误。
关键创新:该研究最重要的技术创新在于提出了“原子指令差距”这一概念,并设计了一套系统性的评估方法来揭示这一差距。通过改变选项标签的格式和移除选项内容,可以有效地测试模型对指令的真正理解程度,而不是仅仅依赖于表面上的模式匹配。此外,该研究还发现,即使是较大的LLM,在指令遵循方面仍然存在不一致性。
关键设计:该研究的关键设计在于对MMLU和MMLU-Pro基准的修改,使其能够系统性地改变选项标签的格式。此外,四种不同的指令范式也至关重要,它们分别测试了模型在不同程度的指令指导下的性能。少量示例的使用旨在评估模型是否能够通过学习来提高鲁棒性,但实验结果表明效果不佳。
🖼️ 关键图片
📊 实验亮点
实验结果表明,在显式指令下,标签变化会导致性能大幅波动(例如,罗马数字与数字相比下降-30.45%)。在没有指令的情况下,性能进一步下降(高达-10.84%)。当选项内容被移除时,模型除了数字标签外,都无法达到随机选择的基线水平。少量示例无法显著提高鲁棒性或保真度。
🎯 应用场景
该研究成果可应用于提升大语言模型在实际应用场景中的可靠性和可控性,例如在智能客服、自动化问答、代码生成等领域。通过解决原子指令差距,可以提高模型对用户指令的理解和执行能力,减少因指令格式变化而导致的错误,从而提升用户体验。
📄 摘要(原文)
Instruction-tuned large language models (IT-LLMs) exhibit strong zero-shot reasoning, yet their ability to execute simple, self-contained instructions remains underexplored, despite this being foundational to complex instruction-following. We evaluate 20 IT-LLMs on modified MMLU and MMLU-Pro benchmarks, by systematically varying the format of option labels (alphabetic, numeric, Roman) while keeping their meaning identical under four paradigms, namely: (1) With explicit instructions, label changes cause large performance shifts (e.g., -30.45\% for Roman vs. numeric), revealing instruction-format bias. (2) Without instructions, performance drops further (up to -10.84\%) and label sensitivity intensifies, underscoring the role of explicit guidance. (3) When option contents are removed, models fail random-choice baselines except with numeric labels, suggesting weak adherence to atomic directives. (4) Three-shot exemplars yield no significant gains in robustness or fidelity, and generation analyses show persistent label errors, especially for non-numeric formats. Across model sizes, larger LLMs achieve higher accuracy but remain inconsistent in instruction adherence. These results expose the insufficiencies of current instruction-tuning paradigms and highlight the need for evaluation methods and training strategies that explicitly target atomic instruction-following.