Nonsense Helps: Prompt Space Perturbation Broadens Reasoning Exploration
作者: Langlin Huang, Chengsong Huang, Jinyuan Li, Donghong Cai, Yuyi Yang, Jiaxin Huang
分类: cs.AI, cs.CL, cs.LG
发布日期: 2026-05-07
💡 一句话要点
提出LoPE框架:通过提示词空间扰动解决大模型强化学习中的零优势问题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 强化学习 推理能力 GRPO 提示词工程 探索策略 模型训练
📋 核心要点
- 核心问题:在复杂推理任务中,GRPO算法常因所有采样路径失败导致相对优势归零,模型无法获得有效梯度更新,陷入训练停滞。
- 方法要点:提出LoPE框架,通过在提示词前注入随机生成的伪拉丁文序列,人为引入提示词空间扰动,强制模型探索更多样化的推理路径。
- 实验效果:在不同规模模型上的实验证明,LoPE显著提升了推理成功率,优于传统的简单重采样策略,并验证了低困惑度随机序列的有效性。
📝 摘要(中文)
基于可验证奖励的强化学习(如GRPO)显著提升了大语言模型的推理能力。然而,在复杂任务中,GRPO常面临“零优势问题”:当所有采样路径均失败时,相对优势坍缩为零,导致模型失去有效的训练信号,造成计算资源浪费。虽然增加采样数量是常见补救措施,但静态采样策略限制了推理探索空间。本文提出了LoPE(Lorem Perturbation for Exploration)框架,通过在提示词前添加随机生成的Lorem Ipsum伪拉丁文序列,扰动模型输出分布,从而为困难问题解锁正交的推理路径。在1.7B至7B参数规模的模型上实验表明,LoPE显著优于原始提示词重采样,证明了该方法在拓宽推理探索边界方面的有效性。
🔬 方法详解
问题定义:论文旨在解决大模型强化学习(尤其是GRPO)中的“零优势问题”。当模型在复杂推理任务中所有采样路径均失败时,相对优势计算结果为零,导致模型无法从这些失败样本中学习,造成算力浪费且限制了模型对困难问题的探索能力。
核心思路:论文提出通过“提示词空间扰动”来打破探索瓶颈。核心假设是:任务无关的扰动能够改变模型的隐空间状态,从而引导模型跳出原有的失败推理路径,探索到潜在的正确推理路径。
技术框架:LoPE框架在模型推理阶段之前引入了一个扰动模块。该模块将随机生成的Lorem Ipsum伪拉丁文序列作为前缀(Prefix)拼接在原始提示词之前,随后进行多路径采样。若模型在扰动下产生正确答案,则通过GRPO进行策略更新。
关键创新:LoPE的创新在于将“提示词工程”与“强化学习探索”相结合。与传统的增加采样数量不同,LoPE通过改变输入分布的起始点,在不增加模型参数的前提下,以极低成本实现了推理路径的有效多样化。
关键设计:关键设计在于扰动序列的选择。研究发现,使用具有低困惑度(Perplexity)的拉丁文风格随机序列效果最佳,因为这类序列在保持模型语言建模分布的同时,提供了足够的语义扰动以触发不同的推理链。
🖼️ 关键图片
📊 实验亮点
实验覆盖了1.7B、4B和7B三种规模的模型,结果显示LoPE在处理困难推理任务时,成功率显著高于仅使用原始提示词的重采样基线。研究进一步揭示,扰动序列的有效性与序列的困惑度密切相关,证明了通过轻量级扰动即可实现推理探索空间的有效拓宽,为LLM强化学习提供了一种高效的探索策略。
🎯 应用场景
该方法适用于所有基于强化学习(如GRPO、PPO)的大模型推理微调场景,特别是在数学、代码生成及逻辑推理等对推理路径依赖性强的领域。LoPE可作为一种即插即用的训练增强手段,显著降低复杂任务的训练难度,提升模型在长链条推理任务中的鲁棒性与成功率。
📄 摘要(原文)
Reinforcement learning with verifiable rewards, particularly Group Relative Policy Optimization (GRPO), has significantly advanced the reasoning capabilities of Large Language Models (LLMs). However, in complex tasks, GRPO frequently suffers from the ``zero-advantage problem'': when all sampled rollouts for a query fail, the relative advantage collapses to zero. Consequently, the model loses effective training signals for these questions, wasting the training data and computational budget. While simply increasing the sampling budget for these questions is a common remedy, the static sampling policy inherently constrains reasoning exploration, limiting the success rate. In this paper, we propose Lorem Perturbation for Exploration (LoPE), a simple yet effective training framework to break this exploration bottleneck. We posit that task-irrelevant prompt-space perturbations can shift the model's output distribution enough to unlock orthogonal reasoning pathways for hard questions. Specifically, LoPE prepends sequences stochastically assembled from Lorem Ipsum vocabulary (a pseudo-Latin placeholder text) to the prompts before resampling. Experiments across 1.7B, 4B, and 7B models demonstrate that LoPE significantly outperforms resampling with the original prompts. Further analysis reveals that other Latin-based random sequences with low perplexity are also effective perturbations. Our results establish LoPE as a strong baseline for broadening exploration in LLM reinforcement learning.