UniD-Shift: Towards Unified Semantic Segmentation via Interpretable Share-Private Multimodal Decomposition

📄 arXiv: 2605.07356v1 📥 PDF

作者: Shuai Zhang, Zhecheng Shi, Zhuxiao Li, Jing Ou, Tengxi Wang, Yuan Liu, Wufan Zhao

分类: cs.CV

发布日期: 2026-05-08

🔗 代码/项目: GITHUB


💡 一句话要点

提出UniD-Shift框架,通过可解释的共享-私有多模态分解实现统一的2D-3D语义分割。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 语义分割 多模态融合 点云处理 特征解耦 自动驾驶 跨域泛化

📋 核心要点

  1. 针对LiDAR稀疏性与图像几何畸变导致的跨模态对齐困难,现有融合方法难以在复杂场景下保持稳定。
  2. 提出共享-私有分解机制,将多模态特征解耦为通用语义与模态特有属性,实现更鲁棒的特征融合。
  3. 在SemanticKITTI与nuScenes数据集上实现精度提升,并展现出优异的跨域分布偏移鲁棒性。

📝 摘要(中文)

大规模3D点云语义分割对自动驾驶和数字孪生至关重要。然而,LiDAR的稀疏采样模式与相机图像中视点相关的几何畸变,使得跨模态对齐变得复杂,阻碍了稳定的融合。鉴于2D图像是3D世界的表征,我们认为2D和3D特征共享部分语义,同时保留模态特有的属性。基于此,我们提出了一种用于联合2D-3D语义分割的统一多模态框架。该框架结合了基于SAM的视觉编码器和基于SPTNet的几何编码器,以提取互补的语义和几何表征。特征被显式分解为共享和私有子空间,共享部分总结了跨域的通用语义因子,私有部分则保留了模态特有的属性。通过轻量级注意力融合模块,我们将共享特征聚合为一致的跨模态表征,并利用正则化训练目标确保语义对齐与子空间独立性。在SemanticKITTI和nuScenes上的实验表明,该方法在分割精度和计算效率上均优于现有基线,且在跨域分布偏移下表现出极强的泛化能力。

🔬 方法详解

问题定义:论文旨在解决自动驾驶中2D图像与3D点云融合时的“模态鸿沟”问题。现有方法往往直接进行特征拼接或简单的注意力融合,忽略了不同模态在几何与语义上的本质差异,导致在噪声干扰或分布偏移下性能不稳定。

核心思路:基于“2D图像是3D世界投影”的认知,论文提出将多模态特征分解为“共享子空间”(捕捉通用语义)和“私有子空间”(保留模态特有信息)。这种显式的解耦策略能有效过滤模态间的冗余噪声,增强融合特征的鲁棒性。

技术框架:系统由双流编码器构成:视觉流采用SAM(Segment Anything Model)提取语义特征,几何流采用SPTNet提取点云特征。随后,通过分解模块将特征映射至共享与私有空间,利用注意力机制聚合共享特征,最后通过解码器输出分割结果。

关键创新:引入可解释的共享-私有分解机制,通过显式建模模态间的共性与差异,避免了传统融合方法中模态信息相互干扰的问题,提升了模型对不同模态输入质量变化的适应能力。

关键设计:设计了正则化训练目标,包括子空间正交性约束以确保共享与私有特征的独立性,以及语义一致性损失以对齐跨模态语义。此外,采用轻量级注意力模块进行特征聚合,在保证性能的同时维持了计算效率。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在SemanticKITTI和nuScenes基准测试中,UniD-Shift在多项指标上超越了现有的多模态融合基线。特别是在跨域评估(nuScenes USA-Singapore)中,该模型表现出极强的分布偏移鲁棒性,证明了其在不同地理环境下的泛化能力。此外,该方法在保持高精度的同时,通过轻量化设计实现了极高的计算效率,满足实时感知需求。

🎯 应用场景

该研究主要应用于自动驾驶感知系统,通过提升点云与图像的融合精度,增强车辆在复杂城市环境下的障碍物检测与场景理解能力。此外,该技术在城市数字孪生、机器人环境建模及高精度地图构建领域具有广泛应用价值,能有效应对传感器数据缺失或环境光照变化带来的挑战。

📄 摘要(原文)

Semantic segmentation of large-scale 3D point clouds is crucial for applications such as autonomous driving and urban digital twins. However, the sparse sampling pattern of LiDAR and the view-dependent geometric distortion in image observations complicate cross-modal alignment and hinder stable fusion. Inspired by the fact that 2D images captured by cameras are representations of the 3D world, we recognize that the features learned from 2D and 3D segmentation share some common semantics, while other aspects remain modality-specific. This insight motivates a unified multimodal framework for joint 2D-3D semantic segmentation. We combine a SAM-based vision encoder with a SPTNet-based geometric encoder to extract complementary semantic and geometric representations. The resulting features from both modalities are explicitly decomposed into shared and private subspaces, where the shared components summarize semantic factors common to both domains, and the private components preserve properties that are unique to each modality. A lightweight attention-based fusion module aggregates the shared features into a consistent cross-modal representation, and a regularized training objective ensures both semantic alignment and subspace independence. Experiments on the SemanticKITTI and nuScenes benchmarks demonstrate consistent improvements in segmentation accuracy over representative multimodal baselines, accompanied by competitive computational efficiency. Cross-domain evaluation on nuScenes USA-Singapore shows stable performance under distribution shifts, demonstrating strong generalization. The implementation code is publicly available at: https://github.com/shuaizhang69/UniD-Shift.