Why Pass@k Optimization Can Degrade Pass@1: Prompt Interference in LLM Post-training
作者: Anas Barakat, Souradip Chakraborty, Khushbu Pahwa, Amrit Singh Bedi
分类: cs.LG, cs.AI
发布日期: 2026-02-28
💡 一句话要点
揭示Pass@k优化降低Pass@1的现象:LLM后训练中的Prompt干扰
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 后训练 Pass@k优化 Pass@1 Prompt干扰 梯度冲突 数学推理 可验证任务
📋 核心要点
- 现有优化Pass@k的LLM微调方法存在Pass@k提升但Pass@1下降的trade-off问题。
- 论文提出Pass@k优化可能因Prompt干扰导致梯度冲突,从而降低Pass@1的理论解释。
- 实验验证了在数学推理任务中,Pass@k优化确实会降低Pass@1性能,支持了理论分析。
📝 摘要(中文)
Pass@k是可验证的大型语言模型任务(包括数学推理、代码生成和简答推理)中广泛使用的性能指标。如果k个独立采样的解决方案中任何一个通过验证器,则认为成功。这种多样本推理指标推动了直接优化pass@k的推理感知微调方法。然而,先前的工作报告了一个反复出现的权衡:在这种方法下,pass@k得到改善,而pass@1却下降。这种权衡在实践中非常重要,因为由于延迟和成本预算、不完善的验证器覆盖以及对可靠的单次后退的需求,pass@1通常仍然是一个硬性的操作约束。我们研究了这种权衡的起源,并提供了pass@k策略优化何时会通过prompt干扰引起的梯度冲突来降低pass@1的理论表征。我们表明,pass@k策略梯度可能与pass@1梯度冲突,因为pass@k优化隐式地将prompt重新加权到低成功率的prompt;当这些prompt是我们所说的负干扰时,它们权重的增加会使pass@k更新方向偏离pass@1方向。我们用大型语言模型在可验证的数学推理任务上的实验来说明我们的理论发现。
🔬 方法详解
问题定义:论文旨在解决在大型语言模型(LLM)后训练中,针对可验证任务(如数学推理、代码生成)优化Pass@k指标时,Pass@1指标反而下降的问题。现有方法虽然提升了Pass@k,但牺牲了Pass@1,这在实际应用中是不可接受的,因为Pass@1往往是延迟、成本和可靠性的关键约束。
核心思路:论文的核心思路是,Pass@k优化过程中,对不同Prompt的隐式重加权可能导致梯度冲突,从而降低Pass@1。具体来说,Pass@k优化倾向于提升那些成功率较低的Prompt,如果这些Prompt与Pass@1的优化方向相反(即“负干扰”),就会导致整体性能下降。
技术框架:论文构建了一个理论框架,用于分析Pass@k优化对Pass@1的影响。该框架基于梯度分析,考察了Pass@k和Pass@1的梯度方向,以及Prompt之间的相互干扰。通过数学推导,论文证明了在特定条件下,Pass@k优化会导致Pass@1性能下降。
关键创新:论文最重要的创新在于揭示了Pass@k优化与Pass@1之间的trade-off并非偶然现象,而是由Prompt干扰引起的梯度冲突所致。这种理论解释为理解和解决这一问题提供了新的视角。与现有方法相比,论文不仅关注Pass@k的提升,更深入地分析了其对Pass@1的副作用。
关键设计:论文的关键设计包括:1) 定义了“负干扰”Prompt的概念,用于描述那些与Pass@1优化方向相反的Prompt;2) 推导了Pass@k和Pass@1的梯度表达式,用于分析梯度冲突;3) 设计了数学推理实验,用于验证理论分析。具体的参数设置和网络结构取决于所使用的LLM和数学推理任务。
🖼️ 关键图片
📊 实验亮点
论文通过在数学推理任务上的实验,验证了Pass@k优化确实会导致Pass@1性能下降。实验结果表明,在某些情况下,Pass@k的提升是以牺牲Pass@1为代价的,这证实了论文提出的Prompt干扰理论。具体的性能数据在论文中给出。
🎯 应用场景
该研究成果可应用于提升LLM在需要高可靠性和低延迟的场景下的性能,例如:自动代码修复、数学问题求解、医疗诊断辅助等。通过避免Pass@k优化对Pass@1的负面影响,可以提高LLM在实际应用中的可用性和效率,降低部署成本。
📄 摘要(原文)
Pass@k is a widely used performance metric for verifiable large language model tasks, including mathematical reasoning, code generation, and short-answer reasoning. It defines success if any of $k$ independently sampled solutions passes a verifier. This multi-sample inference metric has motivated inference-aware fine-tuning methods that directly optimize pass@$k$. However, prior work reports a recurring trade-off: pass@k improves while pass@1 degrades under such methods. This trade-off is practically important because pass@1 often remains a hard operational constraint due to latency and cost budgets, imperfect verifier coverage, and the need for a reliable single-shot fallback. We study the origin of this trade-off and provide a theoretical characterization of when pass@k policy optimization can reduce pass@1 through gradient conflict induced by prompt interference. We show that pass@$k$ policy gradients can conflict with pass@1 gradients because pass@$k$ optimization implicitly reweights prompts toward low-success prompts; when these prompts are what we term negatively interfering, their upweighting can rotate the pass@k update direction away from the pass@1 direction. We illustrate our theoretical findings with large language model experiments on verifiable mathematical reasoning tasks.