Beyond Domain Randomization: Event-Inspired Perception for Visually Robust Adversarial Imitation from Videos

📄 arXiv: 2505.18899v1 📥 PDF

作者: Andrea Ramazzina, Vittorio Giammarino, Matteo El-Hariry, Mario Bijelic

分类: cs.CV, cs.LG, cs.RO

发布日期: 2025-05-24


💡 一句话要点

提出事件启发感知,解决视频模仿学习中的视觉鲁棒性问题

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 事件相机 模仿学习 视觉鲁棒性 领域泛化 强化学习

📋 核心要点

  1. 现有视频模仿学习方法在领域差异下表现不佳,视觉随机化计算成本高且泛化性有限。
  2. 论文提出事件启发感知,将RGB视频转换为事件流,提取时间强度梯度,忽略静态外观。
  3. 实验表明,该方法在DeepMind Control Suite和Adroit平台上实现了视觉鲁棒的模仿学习。

📝 摘要(中文)

当专家演示和学习者环境存在领域差异时,例如光照、颜色或纹理的差异,从视频中进行模仿学习通常会失败。虽然视觉随机化通过增加训练数据在一定程度上解决了这个问题,但它仍然计算密集型,并且本质上是被动的,难以应对未见过的场景。我们提出了一种不同的方法:不是随机化外观,而是通过重新思考感觉表征本身来完全消除它们的影响。受到优先考虑时间瞬态的生物视觉系统(例如,视网膜神经节细胞)和最近的传感器进步的启发,我们引入了事件启发感知,用于视觉鲁棒的模仿。我们的方法将标准RGB视频转换为稀疏的、基于事件的表征,该表征编码时间强度梯度,丢弃静态外观特征。这种基于生物学的方法将运动动力学与视觉风格分离,即使在专家和代理环境之间存在视觉不匹配的情况下,也能实现从观察中进行鲁棒的视觉模仿。通过在事件流上训练策略,我们实现了对外观干扰的不变性,而无需计算昂贵且特定于环境的数据增强技术。在DeepMind Control Suite和Adroit平台上进行的动态灵巧操作实验表明了我们方法的有效性。我们的代码已在Eb-LAIfO上公开。

🔬 方法详解

问题定义:现有基于视频的模仿学习方法在面对专家演示和学习环境之间存在视觉差异(如光照、颜色、纹理等)时,性能会显著下降。传统的视觉随机化方法虽然可以缓解这一问题,但需要大量的计算资源,并且难以泛化到未知的视觉场景。因此,如何在视觉差异存在的情况下,实现鲁棒的模仿学习是一个关键问题。

核心思路:论文的核心思路是借鉴生物视觉系统对时间瞬变的敏感性,以及事件相机的特性,将RGB视频转换为事件流。事件流能够捕捉图像中像素强度变化的信息,而忽略静态的外观特征。通过在事件流上进行策略学习,可以有效地将运动动力学与视觉风格解耦,从而提高模仿学习的鲁棒性。

技术框架:该方法首先将RGB视频转换为事件流,这一步可以使用现有的算法或工具实现。然后,使用事件流作为策略网络的输入,策略网络可以是任何适用于强化学习的结构,例如循环神经网络(RNN)或Transformer。策略网络的输出是动作指令,用于控制智能体在环境中的行为。整个框架可以采用模仿学习或强化学习的方式进行训练。

关键创新:该方法最重要的创新点在于使用事件启发的感知方式,将RGB视频转换为事件流,从而实现了视觉风格与运动动力学的解耦。与传统的视觉随机化方法相比,该方法不需要进行大量的数据增强,并且能够更好地泛化到未知的视觉场景。

关键设计:论文的关键设计包括:1) 如何有效地将RGB视频转换为事件流,需要选择合适的事件提取算法,并对参数进行调整;2) 策略网络的结构设计,需要根据具体的任务选择合适的网络结构,并进行优化;3) 损失函数的设计,需要选择合适的损失函数来指导策略网络的学习,例如行为克隆损失或对抗模仿学习损失。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文在DeepMind Control Suite和Adroit平台上进行了实验,结果表明,该方法在视觉差异存在的情况下,能够显著提高模仿学习的性能。具体来说,该方法在多个任务上都取得了优于传统视觉随机化方法的结果,并且在某些任务上取得了接近专家水平的性能。此外,该方法还具有更好的泛化能力,能够在未知的视觉场景中表现出良好的鲁棒性。

🎯 应用场景

该研究成果可应用于机器人、自动驾驶等领域,提高智能体在复杂视觉环境下的适应性和鲁棒性。例如,在光照条件变化剧烈的场景中,机器人可以通过事件启发感知,准确地模仿人类的动作,完成复杂的任务。此外,该方法还可以用于训练自动驾驶系统,使其能够更好地应对各种恶劣天气条件。

📄 摘要(原文)

Imitation from videos often fails when expert demonstrations and learner environments exhibit domain shifts, such as discrepancies in lighting, color, or texture. While visual randomization partially addresses this problem by augmenting training data, it remains computationally intensive and inherently reactive, struggling with unseen scenarios. We propose a different approach: instead of randomizing appearances, we eliminate their influence entirely by rethinking the sensory representation itself. Inspired by biological vision systems that prioritize temporal transients (e.g., retinal ganglion cells) and by recent sensor advancements, we introduce event-inspired perception for visually robust imitation. Our method converts standard RGB videos into a sparse, event-based representation that encodes temporal intensity gradients, discarding static appearance features. This biologically grounded approach disentangles motion dynamics from visual style, enabling robust visual imitation from observations even in the presence of visual mismatches between expert and agent environments. By training policies on event streams, we achieve invariance to appearance-based distractors without requiring computationally expensive and environment-specific data augmentation techniques. Experiments across the DeepMind Control Suite and the Adroit platform for dynamic dexterous manipulation show the efficacy of our method. Our code is publicly available at Eb-LAIfO.