Contrastive Learning-Driven Traffic Sign Perception: Multi-Modal Fusion of Text and Vision

📄 arXiv: 2507.23331v1 📥 PDF

作者: Qiang Lu, Waikit Xiu, Xiying Li, Shenyu Hu, Shengbo Sun

分类: cs.CV

发布日期: 2025-07-31

备注: 11pages, 5 figures


💡 一句话要点

提出基于对比学习的交通标志感知框架,融合文本与视觉信息,提升长尾分布下的识别精度。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 交通标志识别 对比学习 多模态融合 长尾分布 小目标检测 自动驾驶 视觉语言模型

📋 核心要点

  1. 现有交通标志识别方法在长尾分布数据集上表现不佳,且难以有效提取小尺度交通标志的多尺度特征。
  2. 论文提出两阶段框架,分别使用NanoVerse YOLO和TSR-MCL模型,提升检测和小目标识别性能。
  3. 实验结果表明,该方法在TT100K数据集上取得了state-of-the-art的性能,并在准确率和召回率上显著优于主流算法。

📝 摘要(中文)

交通标志识别是自动驾驶感知系统的核心组成部分,直接影响车辆环境感知和驾驶安全。现有技术面临两个主要挑战:一是交通标志数据集呈现显著的长尾分布,导致传统卷积网络在处理低频和分布外类别时识别性能大幅下降;二是现实场景中的交通标志大多是小目标,且尺度变化大,难以提取多尺度特征。为了解决这些问题,我们提出了一种结合开放词汇检测和跨模态学习的新型两阶段框架。在交通标志检测方面,我们的NanoVerse YOLO模型集成了可重参数化的视觉-语言路径聚合网络(RepVL-PAN)和SPD-Conv模块,专门增强对小尺度、多尺度目标的特征提取。在交通标志分类方面,我们设计了一种交通标志识别多模态对比学习模型(TSR-MCL)。通过对比来自Vision Transformer的视觉特征和来自基于规则的BERT的语义特征,TSR-MCL学习鲁棒的、频率无关的表示,有效缓解了数据不平衡引起的类别混淆。在TT100K数据集上,我们的方法在所有类别识别的长尾检测任务中实现了最先进的78.4% mAP。该模型还获得了91.8%的准确率和88.9%的召回率,显著优于主流算法,并在复杂的开放世界场景中表现出卓越的准确性和泛化能力。

🔬 方法详解

问题定义:交通标志识别在实际应用中面临长尾分布问题,即某些类别的交通标志出现频率远低于其他类别,导致模型在这些低频类别上的识别性能显著下降。此外,现实场景中的交通标志通常是小目标,且尺度变化较大,使得特征提取更加困难。现有方法难以同时解决这两个问题。

核心思路:论文的核心思路是利用对比学习和跨模态融合来解决长尾分布和尺度变化问题。通过对比视觉特征和语义特征,模型可以学习到更加鲁棒和频率无关的表示,从而缓解类别混淆。同时,针对小目标检测,设计专门的网络结构来增强特征提取能力。

技术框架:该框架包含两个主要阶段:交通标志检测和交通标志分类。第一阶段使用NanoVerse YOLO模型进行交通标志检测,该模型集成了RepVL-PAN和SPD-Conv模块,用于增强小目标和多尺度目标的特征提取。第二阶段使用TSR-MCL模型进行交通标志分类,该模型通过对比Vision Transformer提取的视觉特征和基于规则的BERT提取的语义特征,学习鲁棒的表示。

关键创新:该论文的关键创新点在于:1) 提出了RepVL-PAN和SPD-Conv模块,专门用于增强小目标和多尺度目标的特征提取;2) 设计了TSR-MCL模型,通过对比学习和跨模态融合,学习鲁棒的、频率无关的表示,有效缓解了长尾分布带来的类别混淆问题。与现有方法相比,该方法更加注重对小目标和低频类别的识别性能提升。

关键设计:在NanoVerse YOLO中,RepVL-PAN通过可重参数化技术提升网络的表达能力,SPD-Conv模块则用于减少小目标特征的损失。在TSR-MCL中,Vision Transformer用于提取视觉特征,基于规则的BERT用于提取语义特征,对比损失函数用于学习视觉特征和语义特征之间的对应关系。具体的损失函数形式和网络结构参数在论文中有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该方法在TT100K数据集上取得了显著的性能提升。在长尾检测任务中,实现了78.4%的mAP,达到了state-of-the-art水平。同时,在交通标志分类任务中,获得了91.8%的准确率和88.9%的召回率,显著优于主流算法,证明了该方法在复杂开放世界场景中的优越性能。

🎯 应用场景

该研究成果可应用于自动驾驶、高级驾驶辅助系统(ADAS)、智能交通等领域。通过提高交通标志识别的准确性和鲁棒性,可以增强车辆对周围环境的感知能力,从而提高驾驶安全性,减少交通事故的发生。此外,该方法还可以应用于交通标志维护和管理,例如自动检测和识别损坏或缺失的交通标志。

📄 摘要(原文)

Traffic sign recognition, as a core component of autonomous driving perception systems, directly influences vehicle environmental awareness and driving safety. Current technologies face two significant challenges: first, the traffic sign dataset exhibits a pronounced long-tail distribution, resulting in a substantial decline in recognition performance of traditional convolutional networks when processing low-frequency and out-of-distribution classes; second, traffic signs in real-world scenarios are predominantly small targets with significant scale variations, making it difficult to extract multi-scale features.To overcome these issues, we propose a novel two-stage framework combining open-vocabulary detection and cross-modal learning. For traffic sign detection, our NanoVerse YOLO model integrates a reparameterizable vision-language path aggregation network (RepVL-PAN) and an SPD-Conv module to specifically enhance feature extraction for small, multi-scale targets. For traffic sign classification, we designed a Traffic Sign Recognition Multimodal Contrastive Learning model (TSR-MCL). By contrasting visual features from a Vision Transformer with semantic features from a rule-based BERT, TSR-MCL learns robust, frequency-independent representations, effectively mitigating class confusion caused by data imbalance. On the TT100K dataset, our method achieves a state-of-the-art 78.4% mAP in the long-tail detection task for all-class recognition. The model also obtains 91.8% accuracy and 88.9% recall, significantly outperforming mainstream algorithms and demonstrating superior accuracy and generalization in complex, open-world scenarios.