RAY-TOLD: Ray-Based Latent Dynamics for Dense Dynamic Obstacle Avoidance with TDMPC

📄 arXiv: 2604.27450v1 📥 PDF

作者: Seungho Han, Seokju Lee, Jeonguk Kang

分类: cs.RO, cs.AI

发布日期: 2026-04-30

备注: 8 pages, 4 figures


💡 一句话要点

RAY-TOLD:基于光线的潜在动态模型用于高密度动态避障

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 动态避障 强化学习 模型预测控制 潜在动态模型 自主导航

📋 核心要点

  1. 现有反应式规划方法(如MPPI)在复杂动态环境中易陷入局部最优,预测范围有限是主要瓶颈。
  2. RAY-TOLD融合激光雷达信息与潜在动态模型,学习长期策略先验,结合MPPI的鲁棒性实现避障。
  3. 实验表明,RAY-TOLD在高密度动态环境中显著降低了碰撞率,提升了导航可靠性和安全性。

📝 摘要(中文)

在拥挤、动态的环境中,自主移动机器人面临着持续的挑战。纯粹的反应式规划方法,如模型预测路径积分(MPPI)控制,由于其有限的预测范围,常常难以逃脱复杂场景中的局部最小值。为了弥合这一差距,我们提出了基于光线的任务导向潜在动态(RAY-TOLD),这是一种混合控制架构,它将障碍物信息集成到潜在动态中,并利用基于物理的MPPI的鲁棒性以及强化学习的长期预测能力。RAY-TOLD利用以激光雷达为中心的潜在动态模型将高维传感器数据编码为紧凑的状态表示,从而能够学习终端价值函数和策略先验。我们引入了一种策略混合采样策略,通过从学习到的策略中导出的轨迹来扩充MPPI候选种群,有效地引导规划器朝着目标前进,同时保持运动学可行性。在具有高密度动态障碍物的随机环境中进行的大量测试表明,我们的方法优于MPPI基线,降低了碰撞率。结果证实,将短期基于物理的rollout与学习到的长期意图相结合,可以显著提高导航的可靠性和安全性。

🔬 方法详解

问题定义:论文旨在解决自主移动机器人在高密度、动态人群环境中安全导航的问题。现有的反应式规划方法,例如MPPI,虽然在局部规划上表现良好,但由于预测范围有限,难以应对复杂场景,容易陷入局部最优,导致碰撞风险增加。

核心思路:论文的核心思路是将短期、基于物理的MPPI控制与长期、基于学习的策略相结合。通过学习一个潜在动态模型,将高维传感器数据压缩成低维状态表示,并在此基础上学习一个策略先验,指导MPPI的采样过程,使其能够更好地探索环境,避免局部最优。

技术框架:RAY-TOLD的整体框架包含以下几个主要模块:1) 激光雷达数据输入;2) 激光雷达中心潜在动态模型,用于编码环境信息;3) 策略学习模块,学习终端价值函数和策略先验;4) MPPI控制模块,利用策略先验进行采样,生成候选轨迹;5) 轨迹评估与选择,选择最优轨迹执行。

关键创新:该方法最重要的创新点在于将激光雷达信息融入潜在动态模型,并利用学习到的策略先验指导MPPI的采样过程。这使得规划器能够同时兼顾短期运动学可行性和长期目标导向性,从而在高密度动态环境中实现更安全、更可靠的导航。与传统方法相比,RAY-TOLD能够更好地利用环境信息,做出更明智的决策。

关键设计:论文中关键的设计包括:1) 激光雷达中心潜在动态模型的网络结构和训练方式;2) 策略学习模块的损失函数设计,例如,如何平衡目标导向性和避障需求;3) 策略混合采样策略的具体实现,如何将学习到的策略与MPPI的采样过程有效结合;4) MPPI控制器的参数设置,例如,温度参数和采样数量。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,RAY-TOLD在高密度动态环境中显著优于MPPI基线,具体表现为碰撞率的降低。通过策略混合采样,RAY-TOLD能够更有效地探索环境,避免局部最优,从而实现更安全、更可靠的导航。实验验证了将短期物理模型与长期学习策略相结合的有效性。

🎯 应用场景

RAY-TOLD适用于各种需要在高密度动态环境中运行的自主移动机器人,例如:服务型机器人、自动驾驶汽车、仓储机器人等。该研究成果能够显著提高机器人在复杂环境中的导航安全性和可靠性,降低碰撞风险,提升用户体验,具有重要的实际应用价值和商业前景。

📄 摘要(原文)

Dense, dynamic crowds pose a persistent challenge for autonomous mobile robots. Purely reactive planning methods, such as Model Predictive Path Integral (MPPI) control, often fail to escape local minima in complex scenarios due to their limited prediction horizon. To bridge this gap, we propose Ray-based Task-Oriented Latent Dynamics (RAY-TOLD), a hybrid control architecture that integrates obstacle information into latent dynamics and utilizes the robustness of physics-based MPPI with the long-horizon foresight of reinforcement learning. RAY-TOLD leverages a LiDAR-centric latent dynamics model to encode high-dimensional sensor data into a compact state representation, enabling the learning of a terminal value function and a policy prior. We introduce a policy mixture sampling strategy that augments the MPPI candidate population with trajectories derived from the learned policy, effectively guiding the planner towards the goal while maintaining kinematic feasibility. Extensive tests in a stochastic environment with high-density dynamic obstacles demonstrate that our method outperforms the MPPI baseline, reducing the collision rate. The results confirm that blending short-horizon physics-based rollouts with learned long-horizon intent significantly enhances navigation reliability and safety.