E-VLA: Event-Augmented Vision-Language-Action Model for Dark and Blurred Scenes

作者: Jiajun Zhai, Hao Shi, Shangwei Guo, Kailun Yang, Kaiwei Wang

分类: cs.CV, cs.MM, cs.RO, eess.IV

发布日期: 2026-04-07

💡 一句话要点

E-VLA：事件相机增强的视觉-语言-动作模型，提升黑暗和模糊场景下的操作鲁棒性

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 事件相机 视觉-语言-动作模型 机器人操作 低光照 运动模糊 多模态融合 鲁棒性 事件流处理

📋 核心要点

传统VLA模型在开放式操作中表现良好，但其感知能力在低光照、运动模糊等情况下变得脆弱。
E-VLA利用事件相机提供的运动和结构信息，直接增强VLA模型的感知能力，无需重建图像。
实验表明，简单的事件融合策略即可显著提升VLA模型在恶劣光照和运动模糊环境下的操作成功率。

📝 摘要（中文）

本文提出了一种事件相机增强的视觉-语言-动作（VLA）框架E-VLA，旨在提高传统基于帧的视觉在极端低光、运动模糊和黑电平等感知退化情况下的操作鲁棒性。E-VLA并非从事件中重建图像，而是直接利用事件流中的运动和结构线索，以保持语义感知和感知-动作一致性。作者构建了一个带有DAVIS346事件相机的开源遥操作平台，并收集了一个包含多种任务和光照设置的真实世界同步RGB-事件-动作操作数据集。此外，还提出了轻量级的、与预训练模型兼容的事件集成策略，并研究了事件窗口和融合以实现稳定部署。实验表明，即使是简单的无参数融合（即，将累积的事件图叠加到RGB图像上），也能显著提高在黑暗和模糊场景中的鲁棒性。

🔬 方法详解

问题定义：现有基于帧的视觉-语言-动作（VLA）模型在光照条件良好时表现出色，但在低光照、运动模糊等恶劣环境下，图像质量严重下降，导致感知能力大幅降低，进而影响操作的成功率。因此，如何提升VLA模型在这些恶劣环境下的鲁棒性是一个关键问题。

核心思路：本文的核心思路是利用事件相机提供的互补信息来增强VLA模型的感知能力。事件相机对光照变化非常敏感，即使在黑暗或快速运动的场景中也能捕捉到清晰的运动信息。E-VLA直接利用事件流中的运动和结构线索，而不是尝试从事件中重建图像，从而避免了图像重建过程中的信息损失。

技术框架：E-VLA框架主要包含以下几个模块：1) 事件流处理模块：负责对事件流进行预处理，例如事件累积或滤波。2) 特征提取模块：从RGB图像和事件流中提取视觉特征。3) 特征融合模块：将RGB图像特征和事件流特征进行融合，得到增强的视觉特征表示。4) VLA模型：基于融合后的视觉特征，执行视觉-语言-动作任务。整体流程是，首先利用事件相机和RGB相机同步采集数据，然后分别提取特征，进行融合，最后输入到VLA模型中进行决策。

关键创新：E-VLA的关键创新在于直接将事件流信息融入VLA模型，而无需进行图像重建。这种方法能够更有效地利用事件相机提供的运动信息，并且避免了图像重建过程中的信息损失。此外，作者还提出了轻量级的事件集成策略，使其能够与现有的预训练VLA模型兼容。

关键设计：在事件融合方面，作者尝试了多种策略，包括简单的事件图叠加和更复杂的事件适配器。事件适配器是一种轻量级的神经网络模块，用于学习如何将事件特征与RGB图像特征进行融合。在数据集方面，作者构建了一个包含多种任务和光照设置的真实世界同步RGB-事件-动作操作数据集，为E-VLA模型的训练和评估提供了数据支持。

🖼️ 关键图片

📊 实验亮点

实验结果表明，E-VLA在黑暗和模糊场景中显著提高了VLA模型的操作成功率。在20勒克斯的低光照环境下，使用图像的Pick-Place任务成功率为0%，而使用事件叠加融合后成功率提升至60%，使用事件适配器后更是提升至90%。在严重的运动模糊（1000毫秒曝光）下，Pick-Place任务的成功率从0%提升至20-25%，Sorting任务的成功率从5%提升至32.5%。

🎯 应用场景

E-VLA模型在光线不足或存在运动模糊的机器人操作场景中具有广泛的应用前景，例如夜间巡检、灾难救援、水下作业等。该研究成果有助于提升机器人在复杂环境下的自主操作能力，推动机器人技术在更多实际场景中的应用。未来，E-VLA可以进一步扩展到其他感知模态，例如声音和触觉，以构建更鲁棒和智能的机器人系统。

📄 摘要（原文）

Robotic Vision-Language-Action (VLA) models generalize well for open-ended manipulation, but their perception is fragile under sensing-stage degradations such as extreme low light, motion blur, and black clipping. We present E-VLA, an event-augmented VLA framework that improves manipulation robustness when conventional frame-based vision becomes unreliable. Instead of reconstructing images from events, E-VLA directly leverages motion and structural cues in event streams to preserve semantic perception and perception-action consistency under adverse conditions. We build an open-source teleoperation platform with a DAVIS346 event camera and collect a real-world synchronized RGB-event-action manipulation dataset across diverse tasks and illumination settings. We also propose lightweight, pretrained-compatible event integration strategies and study event windowing and fusion for stable deployment. Experiments show that even a simple parameter-free fusion, i.e., overlaying accumulated event maps onto RGB images, could substantially improve robustness in dark and blur-heavy scenes: on Pick-Place at 20 lux, success increases from 0% (image-only) to 60% with overlay fusion and to 90% with our event adapter; under severe motion blur (1000 ms exposure), Pick-Place improves from 0% to 20-25%, and Sorting from 5% to 32.5%. Overall, E-VLA provides systematic evidence that event-driven perception can be effectively integrated into VLA models, pointing toward robust embodied intelligence beyond conventional frame-based imaging. Code and dataset will be available atthis https URL.

E-VLA: Event-Augmented Vision-Language-Action Model for Dark and Blurred Scenes

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理