The Curse of Helpfulness: Inverse Scaling Law in Robustness to Distractor Instructions via DistractionIF

作者: Zeli Su, Zhankai Xu, Tianlei Chen, Longfei Zheng, Xiaolu Zhang, Jun Zhou, Wentao Zhang

分类: cs.AI

发布日期: 2026-05-28

💡 一句话要点

提出DistractionIF基准，揭示LLM在含干扰指令文本中指令遵循鲁棒性的逆向缩放现象

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 指令遵循 鲁棒性 干扰指令 逆向缩放 强化学习 检索增强生成 DistractionIF

📋 核心要点

大型语言模型在检索增强生成系统中面临参考文本中干扰指令的挑战，影响任务执行的准确性。
论文提出DistractionIF基准，用于评估模型在存在干扰指令时的鲁棒性，并采用强化学习方法提升模型性能。
实验结果表明，大型模型存在逆向缩放现象，即模型越大鲁棒性越差，而GRPO强化学习可以有效提升鲁棒性。

📝 摘要（中文）

大型语言模型（LLMs）越来越多地部署在agentic和检索增强生成（RAG）系统中，在这些系统中，它们必须根据外部提供的参考文本执行用户指定的任务。实际上，这种上下文通常是非结构化的，并且被良性但类似指令的语义噪声（例如编辑评论和系统跟踪）所污染，这些噪声应被严格视为数据。我们引入了DistractionIF，这是一个旨在评估参考文本中针对此类干扰指令的鲁棒性的基准。在广泛的模型中，我们观察到一致的逆向缩放现象：较大的模型通常鲁棒性较差，随着规模的增加，性能下降高达30个点。从机制上讲，我们的困惑度分析表明，缩放会侵蚀鲁棒行为和分心行为之间的概率边界，使模型越来越容易将噪声过度解释为指令。为了解决这个问题，我们证明了强化学习，特别是Group Relative Policy Optimization（GRPO），可以恢复这个边界，在不影响一般指令遵循能力的情况下，将鲁棒性提高高达15.5％。我们的发现突出了参考基础任务中指令遵循鲁棒性的关键差距，并将强化学习确立为在规模上强制执行严格数据-指令分离的有希望的途径。

🔬 方法详解

问题定义：论文旨在解决大型语言模型（LLMs）在检索增强生成（RAG）系统中，由于参考文本中存在干扰性指令而导致的指令遵循鲁棒性问题。现有方法未能有效区分数据和指令，导致模型容易将噪声信息误解为指令，影响任务完成质量。

核心思路：论文的核心思路是通过分析模型在处理干扰指令时的困惑度，发现模型规模扩大导致鲁棒行为和分心行为之间的概率边界模糊。因此，采用强化学习方法，特别是Group Relative Policy Optimization（GRPO），来重新建立清晰的概率边界，从而提高模型对干扰指令的抵抗能力。

技术框架：整体框架包括三个主要部分：1）构建DistractionIF基准，用于评估模型在存在干扰指令时的鲁棒性；2）通过困惑度分析，揭示模型规模与鲁棒性之间的关系；3）使用GRPO强化学习方法训练模型，提高其区分数据和指令的能力。

关键创新：论文的关键创新在于发现了大型语言模型在处理干扰指令时存在的逆向缩放现象，并提出了使用强化学习方法来解决这一问题。与传统方法不同，该方法不是简单地增加模型规模，而是通过优化模型的策略，使其能够更好地理解和区分数据和指令。

关键设计：GRPO强化学习方法通过优化策略，使得模型在处理包含干扰指令的文本时，能够更准确地识别和执行用户指令。具体来说，GRPO通过比较不同策略在不同组别上的表现，从而学习到更加鲁棒的策略。损失函数的设计旨在最大化模型在正确执行指令时的奖励，同时最小化因受到干扰指令影响而产生的损失。

🖼️ 关键图片

📊 实验亮点

实验结果表明，在DistractionIF基准上，大型语言模型存在明显的逆向缩放现象，即模型越大，鲁棒性越差，性能下降高达30个点。通过应用GRPO强化学习方法，模型的鲁棒性提高了高达15.5%，同时没有牺牲其通用指令遵循能力。这些结果表明，强化学习是解决指令遵循鲁棒性问题的一种有效途径。

🎯 应用场景

该研究成果可应用于各种需要从非结构化文本中提取信息的场景，例如智能客服、文档摘要、知识图谱构建等。通过提高模型对干扰信息的抵抗能力，可以提升信息提取的准确性和可靠性，从而提高工作效率和决策质量。未来，该方法有望推广到其他类型的噪声数据处理中。

📄 摘要（原文）

Large Language Models (LLMs) are increasingly deployed in agentic and retrieval-augmented generation (RAG) systems, where they must execute user-specified tasks over externally provided reference text. In practice, such context is often unstructured and contaminated with benign but instruction-like semantic noise, such as editorial comments and system traces, which should be treated strictly as data. We introduce DistractionIF, a benchmark designed to evaluate robustness against such distractor instructions in reference text. Across a broad range of models, we observe a consistent inverse scaling phenomenon: larger models are often less robust, with performance dropping by up to 30 points as scale increases. Mechanistically, our perplexity analysis reveals that scaling erodes the probabilistic boundary between robust and distracted behaviors, making models increasingly prone to over-interpreting noise as instructions. To address this, we demonstrate that reinforcement learning, specifically Group Relative Policy Optimization (GRPO), can restore this boundary, improving robustness by up to 15.5% without compromising general instruction-following capability. Our findings highlight a critical instruction-following robustness gap in reference-grounded tasks and establish reinforcement learning as a promising path for enforcing strict data-instruction separation at scale.

The Curse of Helpfulness: Inverse Scaling Law in Robustness to Distractor Instructions via DistractionIF

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理