On the Paradoxical Interference between Instruction-Following and Task Solving
作者: Yunjia Qi, Hao Peng, Xintong Shi, Amy Xin, Xiaozhi Wang, Bin Xu, Lei Hou, Juanzi Li
分类: cs.CL
发布日期: 2026-01-29
💡 一句话要点
揭示指令遵循对LLM任务解决能力的悖论式干扰,并提出SUSTAINSCORE进行量化
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 指令遵循 大型语言模型 任务解决 悖论式干扰 SUSTAINSCORE
📋 核心要点
- 现有指令遵循方法旨在通过明确约束来对齐LLM与人类意图,但可能适得其反,降低任务解决能力。
- 提出SUSTAINSCORE指标,通过衡量添加自明约束后性能下降程度,量化指令遵循的干扰。
- 实验表明,即使是先进模型,添加自明约束也会导致性能显著下降,并分析了失败模式和注意力分配。
📝 摘要(中文)
本文揭示了一个反直觉的现象:指令遵循可能会悖论式地干扰大型语言模型(LLM)的任务解决能力。为了量化指令遵循对任务解决的干扰,作者提出了一种名为SUSTAINSCORE的指标。该指标衡量的是,在指令中插入一个自明的约束(该约束自然地满足于原始成功的模型输出并从中提取)后,任务性能的下降程度。在数学、多跳问答和代码生成等任务上对当前LLM的实验表明,即使是像Claude-Sonnet-4.5这样的先进模型,添加自明约束也会导致性能大幅下降。作者验证了这种干扰在不同约束类型和规模上的普遍性。此外,作者还识别了常见的失败模式,并通过研究干扰的机制,观察到失败的案例比成功的案例更关注约束。最后,作者使用SUSTAINSCORE对不同的后训练范式如何影响干扰进行了初步研究,并提出了关于当前对齐策略的经验观察。作者将发布代码和数据,以促进进一步的研究。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)在指令遵循过程中出现的悖论式干扰问题。具体来说,当向LLM提供看似无害甚至自明的约束指令时,模型的任务解决能力反而会下降。现有方法的痛点在于,它们通常假设指令遵循能够提升模型性能,而忽略了指令可能带来的负面影响,缺乏对这种干扰现象的量化评估。
核心思路:论文的核心思路是,通过引入自明约束来诱导和量化指令遵循的干扰。自明约束是指那些模型在没有明确指令的情况下,通过成功解决任务已经自然满足的约束。如果添加这些约束后,模型性能反而下降,则表明指令遵循产生了负面干扰。这种思路能够有效地揭示指令遵循的潜在问题,并为改进LLM的对齐策略提供指导。
技术框架:论文的技术框架主要包括以下几个部分:1)定义SUSTAINSCORE指标,用于量化指令遵循的干扰程度;2)设计实验,在数学、多跳问答和代码生成等任务上,向LLM添加自明约束;3)分析实验结果,评估不同模型在不同约束下的性能下降情况;4)研究干扰的机制,分析失败案例的注意力分配情况;5)初步探索不同的后训练范式对干扰的影响。
关键创新:论文最重要的技术创新点在于提出了SUSTAINSCORE指标,这是一种量化指令遵循干扰的有效方法。与现有方法相比,SUSTAINSCORE能够直接衡量指令对任务解决能力的负面影响,而不仅仅关注指令带来的性能提升。此外,论文还通过实验验证了这种干扰现象的普遍性,并对干扰的机制进行了初步研究。
关键设计:SUSTAINSCORE的计算方式是:SUSTAINSCORE = (Task Performance without Constraint - Task Performance with Constraint) / Task Performance without Constraint。实验中,自明约束的提取方式是从模型成功解决任务的输出中提取,确保约束的合理性。注意力分配的分析是通过分析模型在不同层的注意力权重来实现的。论文还探索了不同的后训练范式(如监督微调、强化学习等)对SUSTAINSCORE的影响,但具体参数设置和网络结构等技术细节未详细说明。
🖼️ 关键图片
📊 实验亮点
实验结果表明,即使是像Claude-Sonnet-4.5这样的先进模型,在数学、多跳问答和代码生成等任务上,添加自明约束也会导致性能显著下降。例如,在某些任务上,性能下降幅度超过10%。此外,研究还发现,失败的案例通常会分配更多的注意力给约束,这表明模型可能过度关注指令,而忽略了任务本身的解决。
🎯 应用场景
该研究成果可应用于评估和改进大型语言模型的指令对齐策略,降低指令遵循对模型性能的负面影响。通过SUSTAINSCORE指标,可以更好地理解不同指令类型和训练方法对模型任务解决能力的影响,从而设计更有效的指令,提升LLM在实际应用中的可靠性和效率。未来的研究可以进一步探索如何减轻或消除这种悖论式干扰。
📄 摘要(原文)
Instruction following aims to align Large Language Models (LLMs) with human intent by specifying explicit constraints on how tasks should be performed. However, we reveal a counterintuitive phenomenon: instruction following can paradoxically interfere with LLMs' task-solving capability. We propose a metric, SUSTAINSCORE, to quantify the interference of instruction following with task solving. It measures task performance drop after inserting into the instruction a self-evident constraint, which is naturally met by the original successful model output and extracted from it. Experiments on current LLMs in mathematics, multi-hop QA, and code generation show that adding the self-evident constraints leads to substantial performance drops, even for advanced models such as Claude-Sonnet-4.5. We validate the generality of the interference across constraint types and scales. Furthermore, we identify common failure patterns, and by investigating the mechanisms of interference, we observe that failed cases allocate significantly more attention to constraints compared to successful ones. Finally, we use SUSTAINSCORE to conduct an initial investigation into how distinct post-training paradigms affect the interference, presenting empirical observations on current alignment strategies. We will release our code and data to facilitate further research