Towards Safe Maneuvering of Double-Ackermann-Steering Robots with a Soft Actor-Critic Framework

📄 arXiv: 2510.10332v2 📥 PDF

作者: Kohio Deflesselle, Mélodie Daniel, Aly Magassouba, Miguel Aranda, Olivier Ly

分类: cs.RO, cs.AI

发布日期: 2025-10-11 (更新: 2025-10-14)

备注: 4 pages, 3 figures, 2 tables, Accepted for Safety of Intelligent and Autonomous Vehicles: Formal Methods vs. Machine Learning approaches for reliable navigation (SIAV-FM2L) an IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS 2025) workshop


💡 一句话要点

提出基于SAC框架的安全机动策略,解决双阿克曼转向机器人复杂环境导航问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 双阿克曼转向机器人 深度强化学习 软演员-评论家 后见之明经验回放 安全导航 机器人运动规划

📋 核心要点

  1. 双阿克曼转向机器人运动学约束强,传统规划器在复杂环境中表现不佳。
  2. 利用SAC框架,结合HER和CrossQ,鼓励机器人高效机动并避开障碍物。
  3. 仿真结果表明,该策略能以较高成功率到达目标位置,同时避免碰撞。

📝 摘要(中文)

本文提出了一种基于软演员-评论家(SAC)的深度强化学习框架,用于双阿克曼转向移动机器人(DASMRs)的安全和精确机动。与全向或更简单的非全向机器人(如差速驱动机器人)不同,DASMRs面临着强大的运动学约束,这使得经典规划器在杂乱环境中变得脆弱。我们的框架利用后见之明经验回放(HER)和CrossQ叠加来提高机动效率,同时避免障碍物。对重型四轮转向漫游车的仿真结果表明,学习到的策略可以稳健地到达高达97%的目标位置,同时避开障碍物。我们的框架不依赖于手工制作的轨迹或专家演示。

🔬 方法详解

问题定义:论文旨在解决双阿克曼转向移动机器人在复杂、拥挤环境中安全、高效导航的问题。传统规划方法难以处理此类机器人复杂的运动学约束,尤其是在存在障碍物时,容易失效或产生不安全的轨迹。现有方法通常依赖于手工设计的轨迹或专家演示,泛化能力有限。

核心思路:论文的核心思路是利用深度强化学习,特别是软演员-评论家(SAC)算法,学习一个能够直接从环境状态映射到控制动作的策略。通过奖励函数的设计,鼓励机器人到达目标位置,同时惩罚碰撞行为,从而实现安全导航。HER用于提高采样效率,CrossQ用于进一步提升避障能力。

技术框架:整体框架包括以下几个主要模块:1) 环境模拟器:模拟双阿克曼转向机器人在复杂环境中的运动;2) SAC智能体:包含演员网络和评论家网络,演员网络负责生成控制动作,评论家网络负责评估动作的价值;3) 经验回放缓冲区:存储智能体与环境交互的经验,用于训练网络;4) HER模块:利用后见之明经验回放,即使任务失败,也能从中学习;5) CrossQ模块:通过叠加额外的Q值函数,增强避障能力。

关键创新:该论文的关键创新在于将SAC算法与HER和CrossQ相结合,应用于双阿克曼转向机器人的导航问题。与传统的基于规划的方法相比,该方法能够直接学习从状态到动作的映射,无需手工设计轨迹或专家演示。HER和CrossQ的引入进一步提高了学习效率和避障能力。

关键设计:论文中,奖励函数的设计至关重要,包括到达目标位置的奖励、碰撞惩罚、以及控制动作的正则化项。演员网络和评论家网络通常采用多层感知机(MLP)结构。HER通过将失败的经验转化为成功的经验,增加了训练样本的多样性。CrossQ通过叠加额外的Q值函数,显式地鼓励智能体避开障碍物。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

仿真结果表明,所提出的方法能够使重型四轮转向漫游车在复杂环境中成功到达高达97%的目标位置,同时有效避免障碍物。该方法无需人工设计轨迹或专家演示,展现了良好的自主学习能力和泛化性能。与未采用HER和CrossQ的SAC算法相比,该方法在导航成功率和安全性方面均有显著提升。

🎯 应用场景

该研究成果可应用于各种需要双阿克曼转向机器人的场景,例如:仓库物流、自动驾驶、农业机器人、矿山勘探等。特别是在复杂、非结构化的环境中,该方法能够提供更安全、更可靠的导航能力。未来,该技术有望进一步推广到其他类型的非完整约束机器人。

📄 摘要(原文)

We present a deep reinforcement learning framework based on Soft Actor-Critic (SAC) for safe and precise maneuvering of double-Ackermann-steering mobile robots (DASMRs). Unlike holonomic or simpler non-holonomic robots such as differential-drive robots, DASMRs face strong kinematic constraints that make classical planners brittle in cluttered environments. Our framework leverages the Hindsight Experience Replay (HER) and the CrossQ overlay to encourage maneuvering efficiency while avoiding obstacles. Simulation results with a heavy four-wheel-steering rover show that the learned policy can robustly reach up to 97% of target positions while avoiding obstacles. Our framework does not rely on handcrafted trajectories or expert demonstrations.