Enhancing Exploration with Diffusion Policies in Hybrid Off-Policy RL: Application to Non-Prehensile Manipulation

作者: Huy Le, Tai Hoang, Miroslav Gabriel, Gerhard Neumann, Ngo Anh Vien

分类: cs.RO

发布日期: 2024-11-22 (更新: 2025-04-25)

备注: Accepted for publication in IEEE Robotics and Automation Letters (RA-L)

🔗 代码/项目: PROJECT_PAGE

💡 一句话要点

提出HyDo算法，利用扩散策略增强混合离线强化学习的探索能力，应用于非抓取操作。

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture)

关键词: 非抓取操作 强化学习 扩散模型 混合动作空间 最大熵强化学习

📋 核心要点

非抓取操作策略学习面临探索不足的挑战，现有方法难以有效覆盖动作空间，限制了泛化能力。
论文提出HyDo算法，将连续动作空间建模为扩散模型，并融入最大熵强化学习框架，从而增强探索能力。
实验结果表明，HyDo算法能显著提高非抓取操作任务的成功率，例如在真实6D姿态对齐任务中提升至72%。

📝 摘要（中文）

本文旨在提升非抓取操作中策略的多样性学习，从而改善技能迁移和泛化能力。为此，我们提出了一种混合框架内的双重探索增强方法，该框架同时处理离散和连续动作空间。首先，我们将连续运动参数策略建模为扩散模型。其次，我们将其融入最大熵强化学习框架，统一离散和连续组件。离散动作空间（如接触点选择）通过Q值函数最大化进行优化，而连续部分则由基于扩散的策略引导。这种混合方法产生了一个原则性的目标，其中最大熵项通过结构化变分推断导出为下界。我们提出了混合扩散策略算法（HyDo），并在模拟和零样本sim2real任务中评估了其性能。结果表明，HyDo鼓励更多样化的行为策略，从而显著提高了任务的成功率——例如，在真实世界的6D姿态对齐任务中，成功率从53%提高到72%。

🔬 方法详解

问题定义：论文旨在解决非抓取操作中强化学习策略探索不足的问题。现有方法在处理混合动作空间（离散和连续）时，难以有效地探索连续动作空间，导致策略多样性不足，泛化能力受限。特别是在非抓取操作中，精确的连续动作参数至关重要，而传统方法难以充分探索这些参数。

核心思路：论文的核心思路是将连续动作空间的策略建模为扩散模型，利用扩散模型生成多样化的动作样本，从而增强探索。同时，将扩散模型融入到最大熵强化学习框架中，鼓励策略探索更多不同的行为。通过结构化变分推断，推导出最大熵项的下界，从而实现离散和连续动作空间的统一优化。

技术框架：HyDo算法的整体框架包含以下几个主要模块：1) 离散动作选择模块：使用Q值函数最大化来选择离散动作，例如接触点选择。2) 连续动作生成模块：使用扩散模型生成连续动作参数，例如运动轨迹。3) 最大熵强化学习框架：将离散动作选择和连续动作生成模块集成到最大熵强化学习框架中，鼓励策略探索更多不同的行为。4) 结构化变分推断：用于推导最大熵项的下界，从而实现离散和连续动作空间的统一优化。

关键创新：论文的关键创新在于将扩散模型引入到混合离线强化学习中，用于增强连续动作空间的探索。与现有方法相比，HyDo算法能够生成更多样化的动作样本，从而更有效地探索连续动作空间。此外，通过结构化变分推断，实现了离散和连续动作空间的统一优化，避免了分别优化可能导致的不一致性。

关键设计：扩散模型采用标准的DDPM架构，用于生成连续动作参数。最大熵强化学习框架使用SAC算法作为基础。损失函数包括Q值函数损失、策略损失和扩散模型损失。策略损失鼓励策略生成与扩散模型生成的动作相似的动作。扩散模型损失采用标准的DDPM损失函数。结构化变分推断用于推导最大熵项的下界，具体推导过程未知。

🖼️ 关键图片

📊 实验亮点

HyDo算法在模拟和真实世界的非抓取操作任务中取得了显著的性能提升。在真实世界的6D姿态对齐任务中，HyDo算法的成功率从53%提高到72%。实验结果表明，HyDo算法能够生成更多样化的行为策略，从而更有效地探索动作空间，提高任务的成功率。

🎯 应用场景

该研究成果可应用于机器人非抓取操作，例如物体姿态调整、表面清洁、物体推动等任务。通过提升策略的泛化能力，可以使机器人在复杂和未知的环境中更有效地完成任务。此外，该方法还可以扩展到其他混合动作空间的强化学习问题，例如机器人导航、游戏AI等。

📄 摘要（原文）

Learning diverse policies for non-prehensile manipulation is essential for improving skill transfer and generalization to out-of-distribution scenarios. In this work, we enhance exploration through a two-fold approach within a hybrid framework that tackles both discrete and continuous action spaces. First, we model the continuous motion parameter policy as a diffusion model, and second, we incorporate this into a maximum entropy reinforcement learning framework that unifies both the discrete and continuous components. The discrete action space, such as contact point selection, is optimized through Q-value function maximization, while the continuous part is guided by a diffusion-based policy. This hybrid approach leads to a principled objective, where the maximum entropy term is derived as a lower bound using structured variational inference. We propose the Hybrid Diffusion Policy algorithm (HyDo) and evaluate its performance on both simulation and zero-shot sim2real tasks. Our results show that HyDo encourages more diverse behavior policies, leading to significantly improved success rates across tasks - for example, increasing from 53% to 72% on a real-world 6D pose alignment task. Project page: https://leh2rng.github.io/hydo

Enhancing Exploration with Diffusion Policies in Hybrid Off-Policy RL: Application to Non-Prehensile Manipulation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理