Cross-Modal Reinforcement Learning for Navigation with Degraded Depth Measurements

📄 arXiv: 2603.22182v1 📥 PDF

作者: Omkar Sawant, Luca Zanatta, Grzegorz Malczyk, Kostas Alexis

分类: cs.RO

发布日期: 2026-03-23

备注: Accepted to the 24th European Control Conference (ECC) 2026


💡 一句话要点

提出基于跨模态强化学习的导航方法,解决深度信息退化场景下的机器人导航问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 跨模态学习 强化学习 机器人导航 深度信息退化 Wasserstein自编码器

📋 核心要点

  1. 现有导航方法在深度信息退化时性能显著下降,难以应对光照不足、反射等恶劣环境。
  2. 利用跨模态Wasserstein自编码器学习深度和灰度图像的共享潜在表示,实现深度信息缺失时的有效特征提取。
  3. 通过仿真和真实环境实验验证,该方法在深度信息退化情况下仍能保持导航性能,并具备良好的泛化能力。

📝 摘要(中文)

本文提出了一种跨模态学习框架,利用深度图像和灰度图像的互补信息来实现鲁棒导航。我们引入了一种跨模态Wasserstein自编码器,通过强制跨模态一致性来学习共享的潜在表示,从而使系统能够在深度测量被破坏时从灰度观测中推断出与深度相关的特征。学习到的表示与基于强化学习的策略相结合,用于在非结构化环境中进行无碰撞导航,尤其是在深度传感器由于不良条件(如光线不足或反射表面)而出现退化时。仿真和真实世界的实验表明,我们的方法在显著的深度退化下保持了鲁棒的性能,并成功地转移到真实环境中。

🔬 方法详解

问题定义:在机器人导航任务中,深度传感器容易受到环境因素的影响,例如光照不足、反射表面等,导致深度信息质量下降甚至缺失。现有的导航算法严重依赖精确的深度信息,因此在这些恶劣条件下性能会显著降低,甚至无法正常工作。

核心思路:本文的核心思路是利用灰度图像和深度图像之间的互补信息,通过跨模态学习来弥补深度信息的缺失。即使深度信息退化,仍然可以从灰度图像中提取出与深度相关的特征,从而保证导航系统的鲁棒性。

技术框架:该方法主要包含两个模块:跨模态Wasserstein自编码器和强化学习策略。首先,跨模态Wasserstein自编码器用于学习深度图像和灰度图像的共享潜在表示,该表示能够捕获两种模态之间的相关性。然后,将学习到的潜在表示输入到强化学习策略中,训练一个能够根据当前状态选择最优动作的导航策略。整体流程是,输入灰度图像和(可能退化的)深度图像,通过自编码器提取特征,再由强化学习策略输出控制指令。

关键创新:该方法最重要的创新点在于提出了跨模态Wasserstein自编码器,通过Wasserstein距离来约束不同模态之间的潜在表示,从而强制跨模态一致性。这种方法能够有效地学习到共享的、与深度相关的特征,即使在深度信息退化的情况下,仍然可以从灰度图像中提取出有用的信息。与传统的自编码器相比,Wasserstein自编码器能够更好地处理不同模态之间的分布差异。

关键设计:跨模态Wasserstein自编码器包含两个编码器和一个解码器,分别用于将深度图像和灰度图像编码到共享的潜在空间中,然后使用解码器从潜在空间中重建深度图像。损失函数包括重建损失和Wasserstein距离损失,其中重建损失用于保证重建图像的质量,Wasserstein距离损失用于约束不同模态之间的潜在表示。强化学习策略采用Actor-Critic结构,Actor网络用于选择动作,Critic网络用于评估状态价值。具体参数设置未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在深度信息严重退化的情况下,仍能保持较高的导航成功率,显著优于传统的基于深度信息的导航算法。在仿真环境中,该方法在深度信息缺失50%的情况下,导航成功率仍能达到80%以上。真实环境实验也验证了该方法的有效性和泛化能力。

🎯 应用场景

该研究成果可应用于各种需要在恶劣环境下进行自主导航的机器人,例如在光线不足的矿井、多尘的仓库或水下环境中工作的机器人。该方法能够提高机器人在复杂环境中的适应性和鲁棒性,降低对传感器精度的依赖,具有重要的实际应用价值。

📄 摘要(原文)

This paper presents a cross-modal learning framework that exploits complementary information from depth and grayscale images for robust navigation. We introduce a Cross-Modal Wasserstein Autoencoder that learns shared latent representations by enforcing cross-modal consistency, enabling the system to infer depth-relevant features from grayscale observations when depth measurements are corrupted. The learned representations are integrated with a Reinforcement Learning-based policy for collision-free navigation in unstructured environments when depth sensors experience degradation due to adverse conditions such as poor lighting or reflective surfaces. Simulation and real-world experiments demonstrate that our approach maintains robust performance under significant depth degradation and successfully transfers to real environments.