DPEPO: Diverse Parallel Exploration Policy Optimization for LLM-based Agents

📄 arXiv: 2604.24320v1 📥 PDF

作者: Junshuo Zhang, Chengrui Huang, Feng Guo, Zihan Li, Ke Shi, Menghua Jiang, Jiguo Yu, Shuo Shang, Shen Gao

分类: cs.CL

发布日期: 2026-04-27

备注: Accepted by ACL 2026 main conference

🔗 代码/项目: GITHUB


💡 一句话要点

DPEPO:面向LLM智能体的多样化并行探索策略优化

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: LLM智能体 强化学习 并行探索 多样性奖励 策略优化

📋 核心要点

  1. 传统LLM智能体因序贯交互模式,面临探索不足和环境理解不全面的挑战。
  2. DPEPO通过并行探索范式,使智能体同时与多个环境交互,提升探索效率。
  3. DPEPO在ALFWorld和ScienceWorld上取得SOTA成功率,效率与序贯基线相当。

📝 摘要(中文)

大型语言模型(LLM)智能体遵循序贯的“推理-行动”范式,在许多复杂任务中表现出色。然而,由于它们每一步只与单个环境交互,因此存在探索有限和环境理解不完整的问题。本文首先引入了一种新颖的范式,使智能体能够同时与多个环境交互并共享跨轨迹经验。在此基础上,我们进一步提出了一种强化学习(RL)算法DPEPO,该算法鼓励智能体执行多样化的并行探索。DPEPO包含两个阶段:初始的监督式微调(SFT)赋予智能体基本的并行推理和行动生成能力,然后是具有分层奖励机制的强化学习阶段。我们设计了一个并行轨迹级别的成功奖励和两个步骤级别的奖励:多样化行动奖励和多样化状态转移奖励,它们积极地惩罚行为冗余并促进广泛的探索。在ALFWorld和ScienceWorld上的大量实验表明,DPEPO实现了最先进(SOTA)的成功率,同时保持了与强大的序贯基线相当的效率。

🔬 方法详解

问题定义:现有基于LLM的智能体通常采用“reason-then-act”的序贯模式,即每一步只与一个环境交互。这种方式限制了智能体的探索范围,导致对环境的理解不充分,难以应对复杂任务中的不确定性。痛点在于探索效率低,难以发现最优策略。

核心思路:DPEPO的核心思路是引入并行探索机制,让智能体能够同时与多个环境进行交互,并共享不同轨迹上的经验。通过鼓励多样化的行为和状态转移,智能体可以更全面地探索环境,从而学习到更鲁棒和有效的策略。这种并行探索的设计旨在克服传统序贯方法的局限性,提高探索效率。

技术框架:DPEPO包含两个主要阶段:监督式微调(SFT)和强化学习(RL)。在SFT阶段,使用预训练的LLM,通过监督学习使其具备基本的并行推理和行动生成能力。在RL阶段,采用分层奖励机制,包括轨迹级别的成功奖励和步骤级别的多样性奖励。智能体与多个环境并行交互,收集经验数据,并使用RL算法更新策略。

关键创新:DPEPO的关键创新在于其并行探索范式和多样性奖励机制。与传统的序贯探索方法不同,DPEPO允许智能体同时探索多个环境,从而加速学习过程。多样性奖励机制通过惩罚行为冗余和鼓励状态转移的多样性,引导智能体更全面地探索环境。这种并行探索和多样性奖励的结合是DPEPO能够取得优异性能的关键。

关键设计:DPEPO的分层奖励机制是其关键设计之一。轨迹级别的成功奖励用于鼓励智能体完成任务,而步骤级别的多样性奖励则用于促进探索。多样化行动奖励通过计算当前行动与历史行动的差异来惩罚冗余行为。多样化状态转移奖励则通过鼓励智能体访问不同的状态来促进环境探索。具体实现中,可以使用余弦相似度等方法来衡量行动和状态的差异性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

DPEPO在ALFWorld和ScienceWorld两个benchmark上均取得了SOTA的成功率。具体而言,DPEPO在ALFWorld上的成功率显著优于现有方法,并在ScienceWorld上达到了新的高度。值得注意的是,DPEPO在提升性能的同时,保持了与强劲的序贯基线相当的效率,证明了其在实际应用中的可行性。

🎯 应用场景

DPEPO具有广泛的应用前景,可应用于机器人控制、游戏AI、自动驾驶等领域。通过并行探索和多样性奖励,智能体能够更有效地学习复杂任务,并在不确定环境中做出更好的决策。该研究为提升LLM智能体的自主学习能力提供了新的思路,有望推动人工智能技术的发展。

📄 摘要(原文)

Large language model (LLM) agents that follow the sequential "reason-then-act" paradigm have achieved superior performance in many complex tasks.However, these methods suffer from limited exploration and incomplete environmental understanding, as they interact with only a single environment per step. In this paper, we first introduce a novel paradigm that enables an agent to interact with multiple environments simultaneously and share cross-trajectory experiences. Building upon this paradigm, we further propose DPEPO, a reinforcement learning (RL) algorithm that encourages the agent to perform diverse parallel exploration. There are two stages in DPEPO: initial supervised fine-tuning (SFT) imparts basic parallel reasoning and action generation, followed by reinforcement learning stage with a hierarchical reward scheme. We design a parallel trajectory-level success reward and two step-level rewards: Diverse Action Reward and Diverse State Transition Reward, which actively penalize behavioral redundancy and promote broad exploration. Extensive experiments on ALFWorld and ScienceWorld show that DPEPO achieves state-of-the-art (SOTA) success rates, while maintaining comparable efficiency to strong sequential baselines. (Code is available at https://github.com/LePanda026/Code-for-DPEPO)