Trust, Geometry, and Rules: A Credibility-Aware Reinforcement Learning Framework for Safe USV Navigation under Uncertainty

📄 arXiv: 2605.26974v1 📥 PDF

作者: Yuhang Zhang, Shuqi Chai, Yukang Zhang, Liusha Yang, Mingchuan Zhang, Wei Wang, Qingjiang Shi, Quanbo Ge

分类: cs.RO

发布日期: 2026-05-26


💡 一句话要点

提出一种可信度感知的强化学习框架,用于不确定性下安全无人艇导航。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 无人艇导航 强化学习 可信度感知 安全屏蔽 COLREGs规则

📋 核心要点

  1. 现有基于强化学习的无人艇导航方法易受状态估计误差影响,导致策略学习不稳定。
  2. 该论文提出可信度加权价值学习、协方差膨胀速度障碍和风险感知规则嵌入,提升导航安全性。
  3. 实验表明,该方法在避碰和遵守COLREGs方面优于基线方法,并提高了训练的鲁棒性。

📝 摘要(中文)

在动态海事环境中,安全且符合国际海上避碰规则(COLREGs)的无人艇(USV)自主导航仍然是一个巨大的挑战,尤其是在感知系统表现出未校准的不确定性时。现有的基于强化学习(RL)的方法常常失败,因为状态估计误差会导致不可靠的信念状态,从而误导价值函数,而离散的交通规则则会在学习目标中引入不连续性。为了应对这些挑战,我们提出了一个框架,该框架集成了可信度感知学习、几何安全屏蔽和连续规则感知嵌入。首先,可信度加权价值学习(CW-VL)引入了一个动态信任因子,该因子源于滤波器估计的协方差与经验误差统计之间的差异,以调节评论家的异方差损失,防止策略过度拟合噪声样本。其次,协方差膨胀速度障碍(CI-VO)将位置估计不确定性映射到集合式的角度裕度,形成一个保守的几何屏蔽,覆盖危险的探索性动作。第三,风险感知COLREGs职责嵌入将二元相遇职责放宽为连续的规则感知信号,提供平滑的扇区过渡信息,并抑制来自稀疏规则奖励的振荡。模拟相遇研究表明,与基线相比,该方法提高了针对感知不一致性的训练鲁棒性,并具有卓越的避碰和COLREGs合规性。

🔬 方法详解

问题定义:论文旨在解决在存在感知不确定性的动态海事环境中,无人艇如何安全且符合COLREGs规则地自主导航的问题。现有基于强化学习的方法容易受到状态估计误差的影响,导致价值函数学习不稳定,同时离散的COLREGs规则引入了学习目标的不连续性,使得训练过程难以收敛。

核心思路:论文的核心思路是通过引入可信度感知机制来降低感知不确定性对强化学习的影响,并使用几何安全屏蔽和连续规则嵌入来保证导航的安全性和规则遵从性。具体来说,通过动态调整价值函数的学习权重,降低噪声样本的影响;通过几何方法保守地避免碰撞风险;通过连续嵌入平滑规则切换,避免策略振荡。

技术框架:该框架主要包含三个模块:1) Credibility-Weighted Value Learning (CW-VL):根据滤波器估计的协方差与经验误差统计之间的差异,动态调整价值函数的学习权重。2) Covariance-Inflated Velocity Obstacle (CI-VO):将位置估计不确定性映射为角度裕度,形成几何安全屏蔽,避免危险动作。3) Risk-Aware COLREGs Duty Embedding:将离散的COLREGs规则嵌入到连续的信号中,提供平滑的规则切换信息。整体流程是,首先使用CW-VL进行强化学习训练,然后在执行动作时,使用CI-VO进行安全屏蔽,并使用Risk-Aware COLREGs Duty Embedding提供规则指导。

关键创新:该论文的关键创新在于将可信度感知学习、几何安全屏蔽和连续规则嵌入集成到一个统一的强化学习框架中。与现有方法相比,该方法能够更好地处理感知不确定性,保证导航的安全性,并提高规则遵从性。特别是,CW-VL能够动态调整学习权重,避免策略过度拟合噪声样本,CI-VO能够提供保守的安全保障,Risk-Aware COLREGs Duty Embedding能够平滑规则切换。

关键设计:CW-VL的关键设计在于动态信任因子的计算,该因子基于滤波器估计的协方差与经验误差统计之间的差异。CI-VO的关键设计在于将位置估计不确定性映射为角度裕度,形成保守的几何安全区域。Risk-Aware COLREGs Duty Embedding的关键设计在于将离散的COLREGs规则嵌入到连续的信号中,例如使用sigmoid函数平滑地表示规则切换。损失函数方面,CW-VL使用异方差损失函数,并使用动态信任因子进行加权。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,所提出的框架在模拟相遇场景中,与基线方法相比,显著提高了无人艇的避碰成功率和COLREGs规则的遵守程度。具体而言,该方法能够更有效地应对感知不确定性,避免碰撞风险,并平滑地切换航行规则,从而提高了导航的鲁棒性和安全性。

🎯 应用场景

该研究成果可应用于各种无人水面艇的自主导航系统,尤其是在复杂和不确定的海洋环境中。例如,可用于港口巡逻、海洋监测、搜救行动等任务,提高任务效率和安全性。未来,该方法可以扩展到其他类型的自主导航系统,如无人驾驶车辆和机器人。

📄 摘要(原文)

Autonomous navigation of Unmanned Surface Vehicles (USVs) that is safe and compliant with the International Regulations for Preventing Collisions at Sea (COLREGs) remains a formidable challenge in dynamic maritime environments, particularly when perception systems exhibit miscalibrated uncertainty. Existing Reinforcement Learning (RL)-based methods often falter because state-estimation errors induce unreliable belief states that mislead the value function, while discrete traffic rules introduce discontinuity in the learning objective. To address these challenges, we propose a framework integrating credibility-aware learning, geometric safety shielding, and continuous rule-aware embedding. First, Credibility-Weighted Value Learning (CW-VL) introduces a dynamic trust factor derived from the discrepancy between filter-estimated covariance and empirical error statistics to modulate the critic's heteroscedastic loss, preventing policy overfitting to noisy samples. Second, the Covariance-Inflated Velocity Obstacle (CI-VO) maps position-estimation uncertainty into set-wise angular margins, forming a conservative geometric shield that overrides hazardous exploratory actions. Third, Risk-Aware COLREGs Duty Embedding relaxes binary encounter duties into continuous rule-aware signals, providing smooth sector-transition information and suppressing oscillation from sparse rule rewards. Simulated encounter studies demonstrate improved training robustness against perceptual inconsistency and superior collision avoidance and COLREGs compliance over baselines.