Multimodal Information Bottleneck for Deep Reinforcement Learning with Multiple Sensors

📄 arXiv: 2410.17551v1 📥 PDF

作者: Bang You, Huaping Liu

分类: cs.LG, cs.RO

发布日期: 2024-10-23

备注: 31 pages

期刊: Neural Networks, 176(2024)

DOI: 10.1016/j.neunet.2024.106347


💡 一句话要点

提出多模态信息瓶颈模型以提升强化学习样本效率

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱六:视频提取与匹配 (Video Extraction) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态信息瓶颈 强化学习 机器人控制 样本效率 信息提取

📋 核心要点

  1. 现有的多模态强化学习方法在提取有效信息时,容易捕捉到与学习策略无关的噪声,影响性能。
  2. 本文提出的多模态信息瓶颈模型,通过压缩多模态观察信息,保留与任务相关的预测信息,提升学习效果。
  3. 实验表明,该模型在运动任务中相比于现有基线,具有更好的样本效率和对噪声的鲁棒性。

📝 摘要(中文)

强化学习在机器人控制任务中取得了良好效果,但在有效利用多种传感器信息方面存在困难。现有方法通过重构或互信息构建辅助损失,以提取多模态输入的联合表示,然而这些方法学习到的表示可能捕捉到与学习策略无关的信息,导致性能下降。本文提出了一种多模态信息瓶颈模型,从自我中心图像和本体感知中学习与任务相关的联合表示,压缩并保留多模态观察中的预测信息,过滤掉与任务无关的信息。实验结果表明,该方法在多个挑战性的运动任务中表现出更好的样本效率和对未见白噪声的零-shot鲁棒性。

🔬 方法详解

问题定义:本文旨在解决现有多模态强化学习方法在信息提取时容易引入无关噪声的问题,导致学习策略性能下降。

核心思路:提出多模态信息瓶颈模型,通过压缩多模态观察中的信息,专注于保留与任务相关的预测信息,从而提升学习效率和效果。

技术框架:模型包括信息瓶颈模块,负责压缩输入的自我中心图像和本体感知信息,融合互补信息并过滤无关信息,最终输出任务相关的联合表示。

关键创新:该模型的创新在于通过信息瓶颈的方式,有效压缩多模态信息,避免了传统方法中无关信息的干扰,提升了强化学习的样本效率。

关键设计:模型设计中,采用了特定的损失函数来最小化信息瓶颈的上界,确保优化过程的计算可行性,同时在网络结构上融合了视觉和本体感知的特征提取模块。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,所提模型在多个运动任务中相较于领先基线,样本效率提升显著,且在面对未见白噪声时表现出更强的零-shot鲁棒性,验证了模型的有效性和实用性。

🎯 应用场景

该研究的潜在应用领域包括机器人控制、自动驾驶和人机交互等场景,能够有效提升多模态传感器数据的利用效率,推动智能系统的自主学习和适应能力。未来,该模型有望在更复杂的环境中实现更高效的决策制定。

📄 摘要(原文)

Reinforcement learning has achieved promising results on robotic control tasks but struggles to leverage information effectively from multiple sensory modalities that differ in many characteristics. Recent works construct auxiliary losses based on reconstruction or mutual information to extract joint representations from multiple sensory inputs to improve the sample efficiency and performance of reinforcement learning algorithms. However, the representations learned by these methods could capture information irrelevant to learning a policy and may degrade the performance. We argue that compressing information in the learned joint representations about raw multimodal observations is helpful, and propose a multimodal information bottleneck model to learn task-relevant joint representations from egocentric images and proprioception. Our model compresses and retains the predictive information in multimodal observations for learning a compressed joint representation, which fuses complementary information from visual and proprioceptive feedback and meanwhile filters out task-irrelevant information in raw multimodal observations. We propose to minimize the upper bound of our multimodal information bottleneck objective for computationally tractable optimization. Experimental evaluations on several challenging locomotion tasks with egocentric images and proprioception show that our method achieves better sample efficiency and zero-shot robustness to unseen white noise than leading baselines. We also empirically demonstrate that leveraging information from egocentric images and proprioception is more helpful for learning policies on locomotion tasks than solely using one single modality.