AGPO: Asymmetric Group Policy Optimization for Verifiable Reasoning and Search Ads Relevance at JD
作者: Yang Xu, Kun Yao, Yiming Deng, Zheng Fang, Kai Ming Ting, Ming Pang
分类: cs.AI
发布日期: 2026-05-07
💡 一句话要点
提出非对称组策略优化(AGPO)算法,解决大模型强化学习中的推理边界收缩问题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 强化学习 大语言模型 推理优化 策略梯度 搜索广告 可验证奖励
📋 核心要点
- 现有RLVR方法虽提升了采样效率,但导致模型推理边界收缩,在大样本量下反而不如基座模型。
- AGPO通过负向主导策略抑制错误路径,并利用组优势机制动态调整正向更新,平衡探索与利用。
- 实验表明AGPO在数学推理基准上达到SOTA,并有效提升了工业界搜索广告相关性标注的数据质量。
📝 摘要(中文)
带有可验证奖励的强化学习(RLVR)在提升大语言模型(LLM)推理能力方面取得了显著进展。然而,研究发现现有RLVR方法虽能提高采样效率,却未能激发新的推理模式,反而导致模型推理边界收缩,在样本量较大时表现不及基座模型。本文提出了非对称组策略优化(AGPO)以克服这一局限。AGPO采用负向主导的强化策略抑制错误路径,保留基座模型的探索能力;同时引入组优势机制,根据组内方差缩放正向更新,使模型聚焦于稀有的正确路径并抑制平凡路径的更新。在五个数学基准测试及京东搜索广告相关性优化任务中,AGPO均实现了SOTA性能,并在大规模场景下显著提升了pass@k指标。
🔬 方法详解
问题定义:现有RLVR方法在训练过程中过度拟合已知的正确路径,导致模型丧失了基座模型原有的多样性探索能力,使得推理边界收缩,在面对复杂或长尾问题时性能下降。
核心思路:AGPO的核心在于“非对称”处理。通过负向主导策略(Negative-dominant)强力抑制错误推理路径,同时利用组优势机制(Group Advantage)对正确路径进行差异化加权,从而在保留探索能力的同时,精准强化高质量的推理逻辑。
技术框架:算法基于策略梯度框架,将采样路径分为正向(正确)和负向(错误)两组。通过计算组内方差来动态调整正向更新的权重,并结合负向惩罚项,实现对策略分布的精细化重塑。
关键创新:引入了组优势机制,该机制能够根据组内推理路径的方差自动缩放更新幅度,有效过滤掉那些虽然正确但属于“平凡路径”的样本,从而引导模型学习更具泛化性的推理模式。
关键设计:设计了非对称的奖励分配函数,其中负向奖励的惩罚力度显著高于正向奖励的增益,确保模型在训练过程中始终保持对未知空间的探索倾向,避免过早收敛至局部最优。
🖼️ 关键图片
📊 实验亮点
AGPO在五个主流数学推理基准测试中均刷新了SOTA记录。实验结果显示,该方法不仅在小样本下表现优异,更重要的是在pass@k指标上展现出随样本量增加而持续提升的鲁棒性,有效解决了传统RLVR方法在扩大采样规模时性能停滞甚至下降的痛点。
🎯 应用场景
该方法主要应用于需要高逻辑严密性的任务,如复杂数学推理、代码生成及工业级搜索广告相关性评估。在京东的实际应用中,AGPO通过优化数据标注质量,显著提升了下游学生模型在广告匹配任务中的准确率,展示了其在提升大规模工业数据生产效率方面的巨大潜力。
📄 摘要(原文)
Reinforcement Learning with Verifiable Rewards (RLVR) has demonstrated notable success in enhancing the reasoning performance of large language models (LLMs). However, recent studies reveal that while current RLVR methods improve sampling efficiency towards correct paths, they do not elicit fundamentally new reasoning patterns. Instead, the reasoning capability boundary of trained models often narrows compared to their base models, with base models achieving higher coverage at large sample sizes. In this work, we propose Asymmetric Group Policy Optimization (AGPO) to counteract this boundary shrinkage. AGPO adopts a negative-dominant reinforcement strategy to suppress incorrect reasoning paths, maintaining the base model's exploration capacity. For positive reinforcement, AGPO adopts a group advantage mechanism, which scales positive updates based on intra-group variance, allowing the model to focus on rare correct paths while suppressing updates from trivial paths. Our experiments on five mathematical benchmarks demonstrate that AGPO achieves state-of-the-art accuracy while consistently improving pass@$k$ performance at scale. In a large-scale industrial application for search ads relevance optimization, AGPO effectively enhances the quality of the data annotation, leading to substantial performance gains in downstream student models.