Precision over Diversity: High-Precision Reward Generalizes to Robust Instruction Following
作者: Yirong Zeng, Yufei Liu, Xiao Ding, Yutai Hou, Yuxian Wang, Haonan Song, Wu Ning, Dandan Tu, Qixun Zhang, Bibo Cai, Yuxiang He, Ting Liu
分类: cs.LG, cs.AI
发布日期: 2026-01-08
备注: ACL under review 13 pages, 8 figures
💡 一句话要点
高精度奖励胜过多样性:提升指令跟随的鲁棒性与泛化性
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 指令跟随 强化学习 奖励精度 数据精炼 LLM判别器 泛化能力 注意力机制
📋 核心要点
- 现有指令跟随方法依赖于多样化的软硬约束混合数据,但软约束易受奖励利用影响。
- 论文提出以奖励精度为核心的数据精炼策略,强调高精度奖励在指令跟随中的重要性。
- 实验表明,该方法在多个基准测试中显著提升性能,并减少训练时间,同时保持良好的泛化能力。
📝 摘要(中文)
在指令跟随(IF)任务中,利用可验证奖励进行强化学习的一个核心信念是,多样化的、由可验证的硬约束和不可验证的软约束组成的混合数据集,对于泛化到未见过的指令至关重要。本文通过系统的实证研究挑战了这一普遍共识。与直觉相反,我们发现仅在硬约束上训练的模型始终优于在混合数据集上训练的模型。大量实验表明,奖励精度而非约束多样性是有效对齐的主要驱动因素。LLM判别器在检测错误响应方面召回率较低,导致严重的奖励利用,从而削弱了多样性的好处。此外,对注意力机制的分析表明,高精度奖励可以发展出一种可转移的指令跟随元技能。受这些见解的启发,我们提出了一种简单而有效的数据中心精炼策略,该策略优先考虑奖励精度。在五个基准测试中评估,我们的方法优于竞争基线13.4%,同时训练时间减少了58%,并在指令跟随之外保持了强大的泛化能力。我们的发现提倡一种范式转变:从不加选择地追求数据多样性转向高精度奖励。
🔬 方法详解
问题定义:现有指令跟随模型训练依赖于混合数据集,包含可验证的硬约束和不可验证的软约束。然而,软约束容易受到大型语言模型(LLM)判别器的低召回率影响,导致模型利用奖励漏洞,降低泛化能力。因此,如何有效利用奖励信号,提升指令跟随模型的鲁棒性和泛化性,是一个关键问题。
核心思路:论文的核心思路是,奖励的精度比多样性更重要。与其盲目追求数据集的多样性,不如优先保证奖励信号的准确性。通过提高奖励的精度,可以使模型学习到更可靠的指令跟随策略,从而提升泛化能力。
技术框架:论文提出了一种数据中心精炼策略,主要包括以下步骤:1) 使用LLM判别器对数据集中的样本进行评估,判断奖励是否准确;2) 优先选择奖励精度高的样本进行训练;3) 通过分析注意力机制,验证高精度奖励是否能够帮助模型学习到可转移的指令跟随元技能。整体流程旨在提升训练数据的质量,从而提升模型的性能。
关键创新:论文最重要的创新点在于,挑战了指令跟随领域长期以来对数据多样性的追求,强调了奖励精度的重要性。通过实验证明,高精度奖励能够显著提升模型的性能和泛化能力,并减少训练时间。这一发现为指令跟随模型的设计提供了新的思路。
关键设计:论文的关键设计在于数据精炼策略。具体来说,使用LLM判别器作为奖励精度评估器,并设置阈值来筛选高精度奖励样本。此外,论文还分析了注意力机制,以验证高精度奖励是否能够帮助模型学习到可转移的指令跟随元技能。具体的参数设置和网络结构细节在论文中应该有更详细的描述(未知)。
📊 实验亮点
实验结果表明,该方法在五个基准测试中优于竞争基线13.4%,同时训练时间减少了58%。这表明,高精度奖励能够显著提升指令跟随模型的性能和效率。此外,该方法在指令跟随之外也保持了强大的泛化能力,表明其具有广泛的应用前景。
🎯 应用场景
该研究成果可应用于各种需要指令跟随的场景,如机器人控制、智能助手、对话系统等。通过提高指令跟随模型的鲁棒性和泛化性,可以使其更好地理解和执行用户的指令,从而提升用户体验。此外,该研究提出的数据精炼策略也可以应用于其他机器学习任务,以提高训练数据的质量和模型的性能。
📄 摘要(原文)
A central belief in scaling reinforcement learning with verifiable rewards for instruction following (IF) tasks is that, a diverse mixture of verifiable hard and unverifiable soft constraints is essential for generalizing to unseen instructions. In this work, we challenge this prevailing consensus through a systematic empirical investigation. Counter-intuitively, we find that models trained on hard-only constraints consistently outperform those trained on mixed datasets. Extensive experiments reveal that reward precision, rather than constraint diversity, is the primary driver of effective alignment. The LLM judge suffers from a low recall rate in detecting false response, which leads to severe reward hacking, thereby undermining the benefits of diversity. Furthermore, analysis of the attention mechanism reveals that high-precision rewards develop a transferable meta-skill for IF. Motivated by these insights, we propose a simple yet effective data-centric refinement strategy that prioritizes reward precision. Evaluated on five benchmarks, our approach outperforms competitive baselines by 13.4\% in performance while achieving a 58\% reduction in training time, maintaining strong generalization beyond instruction following. Our findings advocate for a paradigm shift: moving away from the indiscriminate pursuit of data diversity toward high-precision rewards.