UpSkill: Mutual Information Skill Learning for Structured Response Diversity in LLMs

📄 arXiv: 2602.22296 📥 PDF

作者: Devan Shah, Owen Yang, Daniel Yang, Chongyi Zheng, Benjamin Eysenbach

分类: cs.LG, cs.AI

发布日期: 2026-02-28


💡 一句话要点

UpSkill:基于互信息技能学习提升LLM在结构化响应中的多样性

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 互信息学习 强化学习 响应多样性 技能学习

📋 核心要点

  1. 现有LLM方法在数学和编程任务中,过度优化单次尝试准确性,抑制了多次尝试中的响应多样性。
  2. UpSkill方法将互信息技能学习(MISL)应用于LLM,通过token级别的互信息奖励,鼓励轨迹对特定技能的特异性。
  3. 在GSM8K数据集上,UpSkill在不降低pass@1的情况下,使Qwen和Llama模型的pass@k平均增益约为3%。

📝 摘要(中文)

本文提出了一种名为UpSkill的训练时方法,该方法将互信息技能学习(MISL)应用于大型语言模型(LLM),以优化pass@k的正确率。现有方法通常优化单次尝试的准确性,但可能会无意中抑制重复尝试中的响应多样性,从而缩小探索范围并忽略代表性不足的策略。UpSkill提出了一种新的奖励机制,并在Group Relative Policy Optimization(GRPO)框架内实现:一种token级别的互信息(MI)奖励,鼓励轨迹对z的特异性。在GSM8K数据集上,使用Llama 3.1-8B、Qwen 2.5-7B和R1-Distilled-Qwen2.5-Math-1.5B三个开源模型进行的实验表明,UpSkill提高了较强基础模型上的多次尝试指标,Qwen和Llama的pass@k平均增益约为3%,且不降低pass@1。此外,经验和理论证据表明,pass@k的改进与互信息目标密切相关。

🔬 方法详解

问题定义:论文旨在解决大型语言模型在解决数学和编程等需要多次尝试的任务时,由于过度优化单次尝试的准确性,导致生成结果多样性不足的问题。现有方法倾向于收敛到少数几种策略,忽略了其他潜在的有效解法,限制了模型的探索能力。

核心思路:论文的核心思路是利用互信息技能学习(MISL)来鼓励模型生成更多样化的解决方案。通过最大化技能变量和模型轨迹之间的互信息,使得不同的技能对应不同的解题策略,从而提升整体的pass@k指标。

技术框架:UpSkill方法在Group Relative Policy Optimization(GRPO)框架下实现。GRPO是一种强化学习方法,用于优化策略。UpSkill的关键在于设计了一个新的奖励函数,该奖励函数基于token级别的互信息,用于衡量轨迹对于特定技能的特异性。整体流程包括:1)采样多个轨迹;2)计算每个轨迹的互信息奖励;3)使用GRPO更新策略。

关键创新:最重要的创新点在于提出了token级别的互信息奖励,并将其应用于LLM的训练中。与传统的奖励函数不同,该奖励函数不仅考虑了最终结果的正确性,还考虑了生成过程的多样性。这种方法能够有效地鼓励模型探索不同的解题策略,从而提升整体的性能。

关键设计:关键设计包括:1)互信息奖励的计算方式,具体如何衡量token级别的互信息;2)GRPO框架的具体实现细节,包括如何选择合适的超参数;3)技能变量的表示方式,如何定义不同的技能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,UpSkill方法在GSM8K数据集上,使用Llama 3.1-8B和Qwen 2.5-7B模型时,pass@k指标平均提升约3%,且不降低pass@1。这表明UpSkill方法能够在提升模型解题多样性的同时,保持其单次尝试的准确性。此外,实验还验证了pass@k的改进与互信息目标之间存在密切的联系。

🎯 应用场景

UpSkill方法可以应用于各种需要多次尝试才能解决的问题,例如数学问题求解、代码生成、游戏策略等。通过提升LLM的响应多样性,可以提高解决复杂问题的成功率,并促进模型探索新的解决方案。该方法还可以用于提升模型的鲁棒性和泛化能力,使其能够更好地适应不同的任务和环境。

📄 摘要(原文)

Reinforcement Learning with Verifiable Rewards (RLVR) has improved the reasoning abilities of large language models (LLMs) on mathematics and programming tasks, but standard approaches that optimize single-attempt accuracy can inadvertently suppress response diversity across repeated attempts, narrowing exploration and overlooking underrepresented strategies. We introduce UpSkill, a training time method that adapts Mutual Information Skill Learning (MISL) to LLMs for optimizing pass@k correctness. We propose a novel reward that we implement within Group Relative Policy Optimization (GRPO): a token-level mutual information (MI) reward that encourages trajectory specificity to z. Experiments on GSM8K with three open-weight models, Llama 3.1-8B, Qwen 2.5-7B, and R1-Distilled-Qwen2.5-Math-1.5B, show that UpSkill improves multi-attempt metrics on the stronger base models, yielding mean gains of ~3% in pass@k for both Qwen and Llama without degrading pass@1. Additionally, we find both empirical and theoretical evidence that improvements in pass@k are closely tied to the mutual information objective.