COLSON: Controllable Learning-Based Social Navigation via Diffusion-Based Reinforcement Learning

📄 arXiv: 2503.13934v1 📥 PDF

作者: Yuki Tomita, Kohei Matsumoto, Yuki Hyodo, Ryo Kurazume

分类: cs.RO, cs.AI

发布日期: 2025-03-18

备注: This work has been submitted to IROS 2025 for possible publication


💡 一句话要点

COLSON:基于扩散强化学习的可控社交导航

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 社交导航 强化学习 扩散模型 移动机器人 人机交互

📋 核心要点

  1. 现有基于高斯分布的强化学习方法在社交导航中动作灵活性受限,难以适应复杂环境。
  2. 论文提出COLSON,利用扩散模型学习更灵活的动作分布,提升社交导航的适应性。
  3. 实验验证了COLSON在社交导航中的有效性,并扩展其能力以适应静态障碍物场景。

📝 摘要(中文)

在行人交通的动态环境中进行移动机器人导航是自主移动服务机器人开发中的一个关键挑战。 近年来,基于深度强化学习的方法因其优化能力而得到了积极的研究,并且已经优于传统的基于规则的方法。 其中,假设连续动作空间的方法通常依赖于高斯分布假设,这限制了生成动作的灵活性。 同时,扩散模型在强化学习中的应用已经取得了进展,与基于高斯分布的方法相比,允许更灵活的动作分布。 在本研究中,我们将基于扩散的强化学习方法应用于社交导航,并验证了其有效性。 此外,通过利用扩散模型的特性,我们提出了一种扩展,可以实现训练后的动作平滑和适应训练步骤中未考虑的静态障碍物场景。

🔬 方法详解

问题定义:论文旨在解决移动机器人在动态行人环境中进行社交导航时,传统基于高斯分布的强化学习方法动作灵活性不足的问题。这些方法难以生成适应复杂社交环境的动作,导致导航效率和安全性降低。

核心思路:论文的核心思路是利用扩散模型学习更灵活的动作分布,从而克服高斯分布的局限性。扩散模型能够生成更多样化的动作,使机器人能够更好地适应动态的行人环境,并做出更合理的导航决策。

技术框架:COLSON的整体框架基于强化学习,并引入了扩散模型来生成动作。具体流程包括:1)机器人感知周围环境信息;2)利用强化学习策略网络生成动作的均值和方差(用于引导扩散过程);3)使用扩散模型基于均值和方差生成最终的动作;4)执行动作并获得环境反馈;5)利用反馈更新强化学习策略网络和扩散模型。

关键创新:论文的关键创新在于将扩散模型引入到社交导航的强化学习框架中,从而实现了更灵活的动作生成。此外,论文还提出了一种后训练动作平滑方法,以及一种适应静态障碍物场景的扩展方法,进一步提升了COLSON的实用性。

关键设计:COLSON使用Actor-Critic框架进行强化学习,Actor网络负责生成动作的均值和方差,Critic网络负责评估动作的价值。扩散模型采用DDPM(Denoising Diffusion Probabilistic Models)结构,通过逐步去噪的方式生成动作。损失函数包括强化学习的奖励函数和扩散模型的训练损失。动作平滑方法通过对扩散模型生成的动作进行加权平均来实现。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,COLSON在社交导航任务中优于传统的基于高斯分布的强化学习方法。具体而言,COLSON在导航成功率、路径长度和与行人交互的舒适度等方面均取得了显著提升。此外,论文提出的后训练动作平滑方法和静态障碍物适应方法也进一步提升了COLSON的性能。

🎯 应用场景

该研究成果可应用于各种需要在动态环境中进行导航的移动机器人,例如服务机器人、自动驾驶车辆、仓储机器人等。通过提升机器人在复杂环境中的导航能力,可以提高工作效率、降低安全风险,并改善用户体验。未来,该方法有望扩展到更复杂的社交场景,例如人群疏散、人机协作等。

📄 摘要(原文)

Mobile robot navigation in dynamic environments with pedestrian traffic is a key challenge in the development of autonomous mobile service robots. Recently, deep reinforcement learning-based methods have been actively studied and have outperformed traditional rule-based approaches owing to their optimization capabilities. Among these, methods that assume a continuous action space typically rely on a Gaussian distribution assumption, which limits the flexibility of generated actions. Meanwhile, the application of diffusion models to reinforcement learning has advanced, allowing for more flexible action distributions compared with Gaussian distribution-based approaches. In this study, we applied a diffusion-based reinforcement learning approach to social navigation and validated its effectiveness. Furthermore, by leveraging the characteristics of diffusion models, we propose an extension that enables post-training action smoothing and adaptation to static obstacle scenarios not considered during the training steps.