A biologically inspired separable learning vision model for real-time traffic object perception in Dark

📄 arXiv: 2509.05012v1 📥 PDF

作者: Hulin Li, Qiliang Ren, Jun Li, Hanbing Wei, Zheng Liu, Linfang Fan

分类: cs.CV

发布日期: 2025-09-05

DOI: 10.1016/j.eswa.2025.129529

🔗 代码/项目: GITHUB


💡 一句话要点

提出生物启发式可分离学习视觉模型SLVM,用于黑暗交通场景下的实时目标感知。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 低光照感知 目标检测 实例分割 光流估计 生物启发 可分离学习 交通场景 深度学习

📋 核心要点

  1. 现有目标感知模型在低光照交通场景下,由于光照退化和视觉线索缺失,难以快速适应和准确预测。
  2. 提出可分离学习视觉模型(SLVM),通过光自适应瞳孔机制、特征级可分离学习等模块,增强低光照下的感知能力。
  3. 在Dark-traffic和LIS数据集上,SLVM在目标检测、实例分割和光流估计等任务上均取得了显著的性能提升。

📝 摘要(中文)

在低光照交通场景中,快速准确的目标感知越来越受到关注。然而,由于严重的光照退化和缺乏可靠的视觉线索,现有的感知模型和方法难以快速适应并在低光照环境中进行准确预测。此外,目前缺乏专门针对低光照交通场景的大规模基准数据集。为了弥补这一差距,我们引入了一种基于物理的光照退化方法,该方法专为真实世界的低光照环境定制,并构建了Dark-traffic,这是迄今为止最大的、密集标注的低光照交通场景数据集,支持目标检测、实例分割和光流估计。我们进一步提出了可分离学习视觉模型(SLVM),这是一个受生物学启发的框架,旨在增强恶劣光照条件下的感知能力。SLVM集成了四个关键组件:用于光照敏感特征提取的光自适应瞳孔机制、用于高效表示的特征级可分离学习策略、用于多任务可分离学习的任务特定解耦分支,以及用于精确多特征对齐的空间错位感知融合模块。大量实验表明,SLVM以更低的计算开销实现了最先进的性能。值得注意的是,在Dark-traffic数据集上,它在检测方面优于RT-DETR 11.2个百分点,在实例分割方面优于YOLOv12 6.1个百分点,并降低了基线的端点误差(EPE)12.37%。在LIS基准测试中,端到端训练的SLVM在关键指标上平均超过Swin Transformer+EnlightenGAN和ConvNeXt-T+EnlightenGAN 11个百分点,并超过Mask RCNN(具有光照增强)3.1个百分点。Dark-traffic数据集和完整代码已在https://github.com/alanli1997/slvm上发布。

🔬 方法详解

问题定义:论文旨在解决低光照交通场景下目标感知精度低、速度慢的问题。现有方法在光照退化严重的环境中,特征提取能力不足,难以有效区分目标,导致检测、分割等任务性能下降。此外,缺乏专门针对低光照交通场景的大规模数据集也限制了相关研究的发展。

核心思路:论文的核心思路是模拟生物视觉系统在光照变化下的适应机制,设计一个可分离学习的视觉模型。通过光自适应瞳孔机制模拟瞳孔对光照的调节,增强对光照变化的鲁棒性;通过特征级可分离学习策略,降低计算复杂度,提高模型效率;通过任务特定解耦分支,实现多任务学习,提高模型泛化能力。

技术框架:SLVM的整体架构包含四个主要模块:1) 光自适应瞳孔机制:用于提取光照敏感特征。2) 特征级可分离学习策略:用于高效表示特征。3) 任务特定解耦分支:用于多任务可分离学习。4) 空间错位感知融合模块:用于精确多特征对齐。模型首先通过光自适应瞳孔机制提取特征,然后利用可分离学习策略进行特征表示,接着通过解耦分支进行多任务学习,最后通过融合模块进行特征融合,得到最终的感知结果。

关键创新:SLVM的关键创新在于其生物启发式的设计理念和可分离学习策略。与现有方法相比,SLVM更注重模拟生物视觉系统的适应机制,从而更好地适应低光照环境。可分离学习策略能够有效降低计算复杂度,提高模型效率,使其更适合实时应用。空间错位感知融合模块则能够更精确地对齐不同尺度的特征,提高感知精度。

关键设计:光自适应瞳孔机制的具体实现方式未知,但推测可能包含可学习的参数,用于调整特征提取器的感受野或权重,以适应不同的光照条件。特征级可分离学习策略可能采用深度可分离卷积等技术,以降低计算复杂度。任务特定解耦分支的具体结构未知,但推测可能包含针对不同任务的特定层或模块。空间错位感知融合模块的设计细节未知,但其目标是解决不同特征图之间的空间错位问题。

📊 实验亮点

SLVM在Dark-traffic数据集上,目标检测性能优于RT-DETR 11.2个百分点,实例分割性能优于YOLOv12 6.1个百分点,光流估计的端点误差(EPE)降低了12.37%。在LIS基准测试中,SLVM超过Swin Transformer+EnlightenGAN和ConvNeXt-T+EnlightenGAN平均11个百分点,超过Mask RCNN(带光照增强)3.1个百分点。这些结果表明SLVM在低光照交通场景下的感知性能显著提升。

🎯 应用场景

该研究成果可应用于智能交通系统、自动驾驶、安防监控等领域。在低光照或夜间环境下,能够提高车辆、行人等目标的感知精度和速度,从而提升驾驶安全性、交通效率和监控效果。未来,该模型有望进一步扩展到其他恶劣环境下的目标感知任务中。

📄 摘要(原文)

Fast and accurate object perception in low-light traffic scenes has attracted increasing attention. However, due to severe illumination degradation and the lack of reliable visual cues, existing perception models and methods struggle to quickly adapt to and accurately predict in low-light environments. Moreover, there is the absence of available large-scale benchmark specifically focused on low-light traffic scenes. To bridge this gap, we introduce a physically grounded illumination degradation method tailored to real-world low-light settings and construct Dark-traffic, the largest densely annotated dataset to date for low-light traffic scenes, supporting object detection, instance segmentation, and optical flow estimation. We further propose the Separable Learning Vision Model (SLVM), a biologically inspired framework designed to enhance perception under adverse lighting. SLVM integrates four key components: a light-adaptive pupillary mechanism for illumination-sensitive feature extraction, a feature-level separable learning strategy for efficient representation, task-specific decoupled branches for multi-task separable learning, and a spatial misalignment-aware fusion module for precise multi-feature alignment. Extensive experiments demonstrate that SLVM achieves state-of-the-art performance with reduced computational overhead. Notably, it outperforms RT-DETR by 11.2 percentage points in detection, YOLOv12 by 6.1 percentage points in instance segmentation, and reduces endpoint error (EPE) of baseline by 12.37% on Dark-traffic. On the LIS benchmark, the end-to-end trained SLVM surpasses Swin Transformer+EnlightenGAN and ConvNeXt-T+EnlightenGAN by an average of 11 percentage points across key metrics, and exceeds Mask RCNN (with light enhancement) by 3.1 percentage points. The Dark-traffic dataset and complete code is released at https://github.com/alanli1997/slvm.