UV-M3TL: A Unified and Versatile Multimodal Multi-Task Learning Framework for Assistive Driving Perception

📄 arXiv: 2602.01594v1 📥 PDF

作者: Wenzhuo Liu, Qiannan Guo, Zhen Wang, Wenshuo Wang, Lei Yang, Yicheng Qiao, Lening Wang, Zhiwei Li, Chen Lv, Shanghang Zhang, Junqiang Xi, Huaping Liu

分类: cs.CV

发布日期: 2026-02-02


💡 一句话要点

提出UV-M3TL框架,用于辅助驾驶感知中的多模态多任务学习,提升性能并缓解任务间负迁移。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多任务学习 辅助驾驶 多模态融合 特征解耦 驾驶员行为识别

📋 核心要点

  1. 高级驾驶辅助系统(ADAS)需要理解驾驶员行为并感知导航环境,但异构任务的联合学习会导致任务间负迁移,降低系统性能。
  2. UV-M3TL框架通过双分支结构建模任务共享和任务特定特征,并利用自适应特征解耦损失函数,缓解任务冲突和负迁移。
  3. 在AIDE数据集上,UV-M3TL在驾驶员行为、情绪、车辆行为和交通环境识别任务上均达到SOTA,并在其他数据集上表现出通用性。

📝 摘要(中文)

本文提出了一种统一且通用的多模态多任务学习(UV-M3TL)框架,用于同时识别驾驶员行为、驾驶员情绪、车辆行为和交通环境,并缓解任务间的负迁移。该框架包含两个核心组件:双分支空间通道多模态嵌入(DB-SCME)和自适应特征解耦多任务损失(AFD-Loss)。DB-SCME通过采用双分支结构显式建模显著的任务共享和任务特定特征,从而增强跨任务知识迁移,同时减轻任务冲突。AFD-Loss通过引入基于学习动态和特征解耦约束的自适应加权机制,提高联合优化的稳定性,同时引导模型学习多样化的多任务表示。在AIDE数据集上的实验结果表明,UV-M3TL在所有四个任务上都达到了最先进的性能。为了进一步证明其通用性,我们在其他公共多任务感知基准(BDD100K、CityScapes、NYUD-v2和PASCAL-Context)上评估了UV-M3TL,它在各种任务组合中始终表现出强大的性能,并在大多数任务上获得了最先进的结果。

🔬 方法详解

问题定义:现有高级驾驶辅助系统在同时处理驾驶员行为理解和环境感知等多项任务时,容易出现任务间的负迁移现象,导致系统整体性能下降。传统的联合学习方法难以有效区分和利用任务间的共享信息和特定信息,从而限制了模型的泛化能力。

核心思路:UV-M3TL框架的核心在于通过显式地建模任务共享和任务特定特征,并采用自适应的损失函数来平衡不同任务的学习过程。通过双分支结构提取特征,并使用特征解耦约束来减少任务间的干扰,从而实现更有效的多任务学习。

技术框架:UV-M3TL框架主要包含两个核心模块:双分支空间通道多模态嵌入(DB-SCME)和自适应特征解耦多任务损失(AFD-Loss)。DB-SCME首先使用多模态数据作为输入,通过双分支结构分别提取任务共享和任务特定特征。然后,AFD-Loss根据学习动态自适应地调整不同任务的损失权重,并引入特征解耦约束,以减少任务间的干扰。整个框架通过联合优化DB-SCME和AFD-Loss来实现多任务学习。

关键创新:该论文的关键创新在于提出了DB-SCME和AFD-Loss。DB-SCME通过双分支结构显式地建模任务共享和任务特定特征,与传统的单分支结构相比,能够更好地利用任务间的关系。AFD-Loss通过自适应加权和特征解耦约束,提高了联合优化的稳定性和效率,从而更好地学习多任务表示。

关键设计:DB-SCME采用双分支结构,一个分支用于提取任务共享特征,另一个分支用于提取任务特定特征。这两个分支可以采用不同的网络结构,例如卷积神经网络或Transformer。AFD-Loss采用基于学习动态的自适应加权机制,根据每个任务的学习进度动态调整损失权重。特征解耦约束可以通过添加正则化项来实现,例如正交约束或互信息最小化约束。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

UV-M3TL在AIDE数据集上实现了SOTA性能,在驾驶员行为识别、驾驶员情绪识别、车辆行为识别和交通环境感知四个任务上均超越了现有方法。此外,在BDD100K、CityScapes、NYUD-v2和PASCAL-Context等多个通用多任务学习数据集上的实验结果表明,UV-M3TL具有良好的泛化能力和竞争力,在大多数任务上取得了SOTA结果。

🎯 应用场景

UV-M3TL框架可应用于高级驾驶辅助系统(ADAS)和自动驾驶系统,提升车辆对驾驶员状态和周围环境的感知能力。通过更准确地识别驾驶员行为、情绪和交通状况,可以提高驾驶安全性、舒适性和智能化水平,例如实现更智能的驾驶员监控、自适应巡航和自动泊车等功能。该研究对智能交通领域具有重要的实际价值和潜在影响。

📄 摘要(原文)

Advanced Driver Assistance Systems (ADAS) need to understand human driver behavior while perceiving their navigation context, but jointly learning these heterogeneous tasks would cause inter-task negative transfer and impair system performance. Here, we propose a Unified and Versatile Multimodal Multi-Task Learning (UV-M3TL) framework to simultaneously recognize driver behavior, driver emotion, vehicle behavior, and traffic context, while mitigating inter-task negative transfer. Our framework incorporates two core components: dual-branch spatial channel multimodal embedding (DB-SCME) and adaptive feature-decoupled multi-task loss (AFD-Loss). DB-SCME enhances cross-task knowledge transfer while mitigating task conflicts by employing a dual-branch structure to explicitly model salient task-shared and task-specific features. AFD-Loss improves the stability of joint optimization while guiding the model to learn diverse multi-task representations by introducing an adaptive weighting mechanism based on learning dynamics and feature decoupling constraints. We evaluate our method on the AIDE dataset, and the experimental results demonstrate that UV-M3TL achieves state-of-the-art performance across all four tasks. To further prove the versatility, we evaluate UV-M3TL on additional public multi-task perception benchmarks (BDD100K, CityScapes, NYUD-v2, and PASCAL-Context), where it consistently delivers strong performance across diverse task combinations, attaining state-of-the-art results on most tasks.