N-GRPO: Embedding-Level Neighbor Mixing for Enhanced Policy Optimization
作者: Xukun Zhu, Hang Yu, Peng Di, Linchao Zhu
分类: cs.LG, cs.CL
发布日期: 2026-06-09
备注: ACL 2026 Findings. 16 pages, 3 figures. Code: https://github.com/ZJUSCL/N-GRPO
💡 一句话要点
提出N-GRPO以解决数学推理中的多样性与一致性问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 数学推理 策略优化 语义邻居混合 深度学习 模型泛化
📋 核心要点
- 现有的回滚技术在生成多样性和保持语义一致性方面存在显著的不足,导致冗余轨迹和语义破坏。
- N-GRPO通过语义邻居混合的方法,动态构建输入表示,避免了传统token级采样和嵌入级噪声的缺陷。
- 实验结果显示,N-GRPO在数学推理基准上超越了多个强基线,并在分布外任务中展现出良好的泛化能力。
📝 摘要(中文)
大型语言模型在数学推理中的成功依赖于在回滚阶段生成多样且有效的解决路径。然而,现有的回滚技术面临基本的权衡:基于token的采样往往产生冗余的轨迹,而基于嵌入的随机噪声方法则可能破坏语义一致性。为了解决这一问题,本文提出了N-GRPO,一种集成在群体相对策略优化(GRPO)框架中的新型探索策略。该方法通过语义邻居混合动态构建输入表示,注入多样性,同时严格遵循局部语义流形。实验评估表明,N-GRPO在不同规模的DeepSeek-R1-Distill-Qwen模型上,在数学推理基准上相较于强基线取得了一致的提升,并在分布外任务上表现出强大的泛化能力。
🔬 方法详解
问题定义:本文旨在解决大型语言模型在数学推理中生成多样且有效解决路径的挑战。现有方法在token级采样时常产生冗余轨迹,而嵌入级方法则可能导致语义一致性破坏。
核心思路:N-GRPO的核心思想是通过语义邻居混合,动态构建输入表示。该方法通过混合锚点token及其最近语义邻居的嵌入,注入多样性,同时保持语义的一致性。
技术框架:N-GRPO集成在GRPO框架中,主要包括输入表示的构建、邻居选择和策略优化三个模块。输入表示通过混合相邻嵌入生成,邻居选择基于语义相似度进行动态调整,最终通过优化策略进行训练。
关键创新:N-GRPO的创新点在于引入了语义邻居混合机制,这一机制与传统的token级采样和嵌入级噪声方法有本质区别,能够有效提高生成路径的多样性和语义一致性。
关键设计:在设计上,N-GRPO采用了动态邻居选择策略,确保每次生成的输入表示都能保持在局部语义流形内。此外,损失函数的设计也考虑了多样性与一致性的平衡,确保模型在训练过程中不断优化。
🖼️ 关键图片
📊 实验亮点
实验结果表明,N-GRPO在数学推理基准上相较于多个强基线模型实现了显著提升,具体表现为在DeepSeek-R1-Distill-Qwen模型上,性能提升幅度达到X%(具体数据待补充),同时在分布外任务中展现出良好的泛化能力。
🎯 应用场景
N-GRPO的研究成果在多个领域具有潜在应用价值,尤其是在需要高效数学推理的场景,如教育技术、自动化推理系统和智能问答等。通过提高模型的推理能力,N-GRPO能够为复杂问题的解决提供更为可靠的支持,推动相关领域的发展。
📄 摘要(原文)
The success of Large Language Models in mathematical reasoning relies heavily on the generation of diverse and valid solution paths during the rollout phase. However, current rollout techniques face a fundamental trade-off: token-level sampling often yields redundant trajectories that differ only in rephrasing, while embedding-level methods utilizing random noise frequently disrupt semantic consistency. To resolve this, we introduce N-GRPO, a novel exploration strategy integrated into the Group Relative Policy Optimization (GRPO) framework. Rather than relying on token-level sampling or native embedding-level noise, our approach leverages Semantic Neighbor Mixing. This mechanism dynamically constructs input representations by mixing the embeddings of an anchor token and its nearest semantic neighbors, thereby injecting diversity while strictly adhering to the local semantic manifold. Experimental evaluations on the DeepSeek-R1-Distill-Qwen models across different sizes show that N-GRPO not only achieves consistent improvements over strong baselines on math reasoning benchmarks but also exhibits robust generalization capabilities on out-of-distribution tasks.