Scaling Reasoning, Losing Control: Evaluating Instruction Following in Large Reasoning Models

📄 arXiv: 2505.14810v2 📥 PDF

作者: Tingchen Fu, Jiawei Gu, Yafu Li, Xiaoye Qu, Yu Cheng

分类: cs.CL, cs.AI

发布日期: 2025-05-20 (更新: 2025-05-25)

🔗 代码/项目: GITHUB


💡 一句话要点

提出MathIF基准,揭示大规模推理模型中推理能力与指令遵循间的权衡。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 指令遵循 数学推理 大型语言模型 基准测试 可控性 推理能力 MathIF

📋 核心要点

  1. 现有大型语言模型在数学推理方面表现出色,但对指令的遵循能力有待考察,存在可控性问题。
  2. 论文构建了MathIF基准,专门评估模型在数学推理任务中对自然语言指令的遵循程度。
  3. 实验表明,提升推理能力的模型在指令遵循方面表现下降,两者存在权衡,简单的干预可以部分恢复指令遵循。

📝 摘要(中文)

指令遵循对于将大型语言模型(LLMs)与用户意图对齐至关重要。虽然最近面向推理的模型在复杂的数学问题上表现出令人印象深刻的性能,但它们遵守自然语言指令的能力仍未得到充分探索。本文提出了MathIF,一个专门用于评估数学推理任务中指令遵循的基准。实证分析表明,扩大推理能力和保持可控性之间存在持续的紧张关系,因为推理能力更强的模型通常难以遵守用户指令。研究发现,在提炼的长链思维上进行微调或使用面向推理的强化学习训练的模型,在指令遵循方面通常会下降,尤其是在生成长度增加时。此外,即使是简单的干预也可以部分恢复服从性,但会以推理性能为代价。这些发现突出了当前LLM训练范式中的一个根本性矛盾,并激发了对更具指令意识的推理模型的需求。代码和数据已开源。

🔬 方法详解

问题定义:论文旨在解决大型语言模型在数学推理任务中,推理能力增强与指令遵循能力下降之间的矛盾。现有方法往往侧重于提升模型的推理能力,而忽略了模型对用户指令的精确理解和执行,导致模型在解决复杂数学问题的同时,可能无法按照用户指定的格式或步骤给出答案,降低了用户体验。

核心思路:论文的核心思路是通过构建一个专门的基准测试集MathIF,来系统地评估和分析大型语言模型在数学推理任务中的指令遵循能力。通过对不同模型的测试结果进行对比分析,揭示推理能力和指令遵循能力之间的权衡关系,并探索可能的解决方案。

技术框架:论文主要通过构建数据集和实验分析来研究该问题。数据集MathIF包含多种数学推理任务,并针对每个任务设计了不同的指令,用于评估模型对指令的理解和执行能力。实验部分,论文选取了多个具有代表性的大型语言模型,在MathIF上进行测试,并分析了模型在不同指令下的表现。此外,论文还尝试了一些简单的干预方法,例如调整生成长度,来改善模型的指令遵循能力。

关键创新:论文的关键创新在于提出了MathIF基准,这是一个专门用于评估数学推理任务中指令遵循能力的基准。与以往的基准测试集不同,MathIF更加关注模型对自然语言指令的理解和执行,而不仅仅是模型的推理准确率。这使得研究者可以更加全面地评估大型语言模型在数学推理任务中的表现,并发现潜在的问题。

关键设计:MathIF基准的设计考虑了以下几个关键因素:1) 任务的多样性:MathIF包含了多种类型的数学推理任务,例如算术运算、代数方程求解、几何证明等,以覆盖不同的推理场景。2) 指令的多样性:MathIF针对每个任务设计了不同的指令,例如指定答案的格式、限制生成步骤等,以评估模型对不同类型指令的理解和执行能力。3) 评估指标的全面性:MathIF不仅评估模型的推理准确率,还评估模型对指令的遵循程度,例如答案格式的正确性、生成步骤的完整性等。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,在MathIF基准上,随着模型推理能力的提升,其指令遵循能力反而下降。例如,在经过长链思维蒸馏训练或面向推理的强化学习训练后,模型的推理准确率有所提高,但对指令的遵循程度却明显降低。此外,简单的干预措施,如限制生成长度,可以在一定程度上恢复模型的指令遵循能力,但会牺牲推理性能。

🎯 应用场景

该研究成果可应用于提升大型语言模型在教育、金融、科研等领域的应用效果。通过优化模型对指令的遵循能力,可以使其更好地服务于用户,例如在教育领域,模型可以根据学生的具体需求,生成个性化的学习计划和习题;在金融领域,模型可以根据用户的投资偏好,提供定制化的投资建议。

📄 摘要(原文)

Instruction-following is essential for aligning large language models (LLMs) with user intent. While recent reasoning-oriented models exhibit impressive performance on complex mathematical problems, their ability to adhere to natural language instructions remains underexplored. In this work, we introduce MathIF, a dedicated benchmark for evaluating instruction-following in mathematical reasoning tasks. Our empirical analysis reveals a consistent tension between scaling up reasoning capacity and maintaining controllability, as models that reason more effectively often struggle to comply with user directives. We find that models tuned on distilled long chains-of-thought or trained with reasoning-oriented reinforcement learning often degrade in instruction adherence, especially when generation length increases. Furthermore, we show that even simple interventions can partially recover obedience, though at the cost of reasoning performance. These findings highlight a fundamental tension in current LLM training paradigms and motivate the need for more instruction-aware reasoning models. We release the code and data at https://github.com/TingchenFu/MathIF.