Efficient Camera Exposure Control for Visual Odometry via Deep Reinforcement Learning

📄 arXiv: 2408.17005v2 📥 PDF

作者: Shuyang Zhang, Jinhao He, Yilong Zhu, Jin Wu, Jie Yuan

分类: cs.RO, cs.CV

发布日期: 2024-08-30 (更新: 2024-12-23)

备注: 8 pages, 6 figures

🔗 代码/项目: GITHUB


💡 一句话要点

提出基于深度强化学习的相机曝光控制方法,提升视觉里程计在光照变化环境下的稳定性。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 深度强化学习 相机曝光控制 视觉里程计 图像模拟器 光照变化 机器人导航

📋 核心要点

  1. 视觉里程计在光照剧烈变化的环境中,图像质量下降导致系统稳定性降低,这是核心问题。
  2. 利用深度强化学习训练智能体进行曝光控制,通过轻量级图像模拟器进行离线训练,无需真实环境交互。
  3. 实验表明,该方法在CPU上每帧推理仅需1.58ms,响应速度优于传统方法,并能预测光照变化,提升里程计精度。

📝 摘要(中文)

本研究采用深度强化学习(DRL)框架训练智能体进行曝光控制,旨在提升视觉里程计(VO)系统在光照变化剧烈环境下的成像性能。为此,开发了一个轻量级的图像模拟器,用于图像曝光和序列轨迹的多样化训练,实现完全离线的训练模式,无需与相机硬件和真实环境直接交互。设计了不同级别的奖励函数来增强VO系统,赋予DRL智能体不同的智能水平。大量实验表明,所提出的曝光控制智能体实现了卓越的效率——在CPU上平均每帧推理时间为1.58毫秒——并且比传统的反馈控制方案响应更快。通过选择合适的奖励函数,智能体能够智能地理解运动趋势并预测未来的光照变化。这种预测能力使VO系统能够提供更稳定和精确的里程计结果。代码和数据集已在https://github.com/ShuyangUni/drl_exposure_ctrl上发布。

🔬 方法详解

问题定义:视觉里程计(VO)在光照条件变化剧烈的环境中,由于图像曝光不足或过度,导致图像质量下降,特征提取困难,进而影响VO系统的稳定性和精度。现有方法通常采用传统的反馈控制策略,但响应速度慢,难以适应快速变化的光照条件。

核心思路:利用深度强化学习(DRL)训练一个智能体,使其能够根据当前图像和历史信息,预测并调整相机的曝光参数,从而优化图像质量,提高VO系统的性能。核心在于将曝光控制问题建模为一个马尔可夫决策过程(MDP),通过奖励函数引导智能体学习最优的曝光策略。

技术框架:整体框架包括三个主要部分:图像模拟器、DRL智能体和视觉里程计系统。首先,使用图像模拟器生成包含不同光照条件和运动轨迹的图像序列,用于离线训练DRL智能体。然后,DRL智能体根据当前图像的状态(例如,图像的亮度、梯度等)输出曝光参数。最后,将调整后的图像输入到VO系统中,评估VO系统的性能,并将性能指标作为奖励信号反馈给DRL智能体,用于更新智能体的策略。

关键创新:主要创新点在于将深度强化学习应用于相机曝光控制,并设计了相应的奖励函数,使智能体能够学习到预测光照变化的能力。与传统的反馈控制方法相比,该方法具有更快的响应速度和更强的适应性。此外,使用轻量级的图像模拟器进行离线训练,避免了与真实环境的交互,降低了训练成本和风险。

关键设计:图像模拟器采用随机生成光照和运动轨迹的方式,增加了训练数据的多样性。DRL智能体采用Actor-Critic结构,Actor网络负责输出曝光参数,Critic网络负责评估当前状态的价值。奖励函数的设计至关重要,论文中设计了不同级别的奖励函数,包括基于图像质量的奖励、基于VO系统性能的奖励等。具体的网络结构和参数设置在论文中有详细描述,例如,使用了卷积神经网络提取图像特征,并使用LSTM网络处理时间序列信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在CPU上平均每帧推理时间仅为1.58毫秒,远低于传统的反馈控制方案。通过选择合适的奖励函数,智能体能够预测光照变化,并使VO系统提供更稳定和精确的里程计结果。与没有曝光控制的VO系统相比,该方法能够显著提高VO系统的鲁棒性和精度,尤其是在光照条件变化剧烈的环境中。具体的数据指标可以在论文的实验部分找到。

🎯 应用场景

该研究成果可应用于各种需要视觉里程计的场景,尤其是在光照条件变化剧烈的环境中,例如自动驾驶、机器人导航、无人机巡检等。通过智能曝光控制,可以提高VO系统的鲁棒性和精度,从而提升整体系统的性能和可靠性。未来,可以将该方法扩展到其他相机参数的控制,例如增益、白平衡等,进一步提升成像质量。

📄 摘要(原文)

The stability of visual odometry (VO) systems is undermined by degraded image quality, especially in environments with significant illumination changes. This study employs a deep reinforcement learning (DRL) framework to train agents for exposure control, aiming to enhance imaging performance in challenging conditions. A lightweight image simulator is developed to facilitate the training process, enabling the diversification of image exposure and sequence trajectory. This setup enables completely offline training, eliminating the need for direct interaction with camera hardware and the real environments. Different levels of reward functions are crafted to enhance the VO systems, equipping the DRL agents with varying intelligence. Extensive experiments have shown that our exposure control agents achieve superior efficiency-with an average inference duration of 1.58 ms per frame on a CPU-and respond more quickly than traditional feedback control schemes. By choosing an appropriate reward function, agents acquire an intelligent understanding of motion trends and anticipate future illumination changes. This predictive capability allows VO systems to deliver more stable and precise odometry results. The codes and datasets are available at https://github.com/ShuyangUni/drl_exposure_ctrl.