IIB-LPO: Latent Policy Optimization via Iterative Information Bottleneck

📄 arXiv: 2601.05870v1 📥 PDF

作者: Huilin Deng, Hongchen Luo, Yue Zhu, Long Li, Zhuoyue Chen, Xinghao Zhao, Ming Li, Jihai Zhang, Mengchang Wang, Yang Cao, Yu Kang

分类: cs.LG, cs.AI

发布日期: 2026-01-09


💡 一句话要点

提出IIB-LPO,通过迭代信息瓶颈解决LLM推理中的探索崩溃问题。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 强化学习 探索崩溃 信息瓶颈 数学推理

📋 核心要点

  1. 现有方法在LLM推理中面临探索崩溃问题,随机rollout的语义同质性导致模型行为受限。
  2. IIB-LPO通过在高熵状态引入潜在分支,并利用信息瓶颈原则,实现推理路径的多样化和信息过滤。
  3. 实验表明,IIB-LPO在数学推理任务上显著提升了准确率和多样性,优于现有方法。

📝 摘要(中文)

本文提出了一种名为“基于迭代信息瓶颈的潜在策略优化”(IIB-LPO)的新方法,旨在解决大型语言模型(LLM)推理中基于可验证奖励的强化学习(RLVR)所面临的探索崩溃问题。由于随机rollout的语义同质性,模型容易陷入狭窄的、过度优化的行为中。IIB-LPO通过在高熵状态触发潜在分支来多样化推理路径,并将信息瓶颈原则用作轨迹过滤器和自奖励机制,从而确保简洁而信息丰富的探索。在四个数学推理基准测试上的实验结果表明,IIB-LPO取得了最先进的性能,在准确率和多样性指标上分别超过现有方法高达5.3%和7.4%。

🔬 方法详解

问题定义:论文旨在解决大型语言模型在进行复杂推理任务时,由于探索策略的局限性而导致的“探索崩溃”问题。现有方法,如全局熵正则化,容易产生无意义的冗余信息(reward hacking),而局部token选择性更新则受限于预训练模型的强归纳偏置,难以有效探索新的推理路径。

核心思路:IIB-LPO的核心思路是将探索从token分布的统计扰动转移到推理轨迹的拓扑分支。通过在高熵状态(即模型不确定性较高的状态)触发潜在分支,鼓励模型探索不同的推理路径,从而克服探索崩溃问题。信息瓶颈原则用于筛选信息量大且简洁的轨迹,并作为自奖励机制,引导模型学习更有效的推理策略。

技术框架:IIB-LPO包含以下主要阶段:1) 推理过程:LLM在给定输入下生成推理轨迹。2) 高熵状态检测:在推理过程中,检测模型输出token概率分布的高熵状态。3) 潜在分支:在高熵状态,引入随机扰动或采样,生成多个分支推理路径。4) 信息瓶颈过滤:利用信息瓶颈原则,筛选信息量大且简洁的推理轨迹。5) 自奖励:根据信息瓶颈的压缩程度和预测准确性,生成自奖励信号,用于强化学习训练。

关键创新:IIB-LPO的关键创新在于将探索策略从token级别的扰动提升到轨迹级别的分支,并结合信息瓶颈原则进行轨迹筛选和自奖励。这与传统的熵正则化方法和token选择性更新方法有着本质区别,前者容易产生冗余信息,后者受限于预训练模型的偏置。IIB-LPO通过拓扑分支和信息瓶颈,实现了更有效和多样化的探索。

关键设计:IIB-LPO的关键设计包括:1) 高熵阈值:用于确定何时触发潜在分支。2) 信息瓶颈损失函数:用于衡量推理轨迹的信息量和简洁性,通常采用互信息或变分信息瓶颈的近似。3) 自奖励函数:结合信息瓶颈的压缩程度和预测准确性,生成奖励信号。4) 分支数量:控制在高熵状态生成的分支推理路径的数量。

📊 实验亮点

实验结果表明,IIB-LPO在四个数学推理基准测试上取得了显著的性能提升,在准确率上超越现有方法高达5.3%,在多样性指标上提升了7.4%。这些结果验证了IIB-LPO在解决探索崩溃问题方面的有效性,并表明其能够显著提升LLM的推理能力。

🎯 应用场景

IIB-LPO具有广泛的应用前景,可应用于需要复杂推理能力的各种场景,例如数学问题求解、代码生成、知识图谱推理、以及其他需要探索性策略的AI任务。该方法能够提升LLM在这些任务中的准确性和鲁棒性,并有望推动可信赖AI的发展。

📄 摘要(原文)

Recent advances in Reinforcement Learning with Verifiable Rewards (RLVR) for Large Language Model (LLM) reasoning have been hindered by a persistent challenge: exploration collapse. The semantic homogeneity of random rollouts often traps models in narrow, over-optimized behaviors. While existing methods leverage policy entropy to encourage exploration, they face inherent limitations. Global entropy regularization is susceptible to reward hacking, which can induce meaningless verbosity, whereas local token-selective updates struggle with the strong inductive bias of pre-trained models. To address this, we propose Latent Policy Optimization via Iterative Information Bottleneck (IIB-LPO), a novel approach that shifts exploration from statistical perturbation of token distributions to topological branching of reasoning trajectories. IIB-LPO triggers latent branching at high-entropy states to diversify reasoning paths and employs the Information Bottleneck principle both as a trajectory filter and a self-reward mechanism, ensuring concise and informative exploration. Empirical results across four mathematical reasoning benchmarks demonstrate that IIB-LPO achieves state-of-the-art performance, surpassing prior methods by margins of up to 5.3% in accuracy and 7.4% in diversity metrics.