Joint 2D-3D Segmentation and Association in Street-level Imaging

作者: Amir Melnikov, Masayuki Tanaka, Yusuke Monno, Masatoshi Okutomi

分类: cs.CV

发布日期: 2026-05-26

备注: 15 pages, 6 image figures, 1 in-body table, 1 in-body algorithm, 2 indexes with tables

💡 一句话要点

提出联合2D-3D分割与关联框架，用于大规模街景图像理解与空间数字孪生构建。

🎯 匹配领域: 支柱七：动作重定向 (Motion Retargeting) 支柱八：物理动画 (Physics-based Animation)

关键词: 街景图像理解 2D-3D分割 多视角几何 空间数字孪生 零样本学习

📋 核心要点

现有街景图像理解方法依赖时序信息，在视角变化大、光照条件差的情况下，跟踪性能下降明显。
提出一种联合2D-3D分割与关联框架，利用零样本学习和SfM重建，建立跨视角几何对应关系，实现更鲁棒的跟踪。
实验表明，该方法在具有挑战性的城市环境中，相比于SOTA的2D跟踪方法，性能提升了22%。

📝 摘要（中文）

本文提出了一种统一的2D-3D联合分割与关联框架，用于整合视觉语义信息与多视角几何推理，从而实现对街景图像的精确理解。与依赖时序帧进行跟踪的传统方法不同，该方法利用零样本检测和分割以及基于运动结构的重建来建立稳定的跨视角对应关系。一种3D驱动的关联机制取代了传统的2D多目标跟踪，利用几何一致性来指导在宽基线视角和不同成像条件下保持身份一致性。通过结合2D纹理线索和全局3D上下文，该流程非常适合可扩展的街景处理，并可用于各种对象类型。实验表明，与最先进的2D跟踪方法相比，该方法显著提高了ground-truth序列的覆盖率，并实现了更强大的身份保持，在具有挑战性的城市场景中实现了22%的性能提升。

🔬 方法详解

问题定义：街景图像的精确理解对于大规模城市地图绘制和空间数字孪生（SDT）环境的创建至关重要。传统方法主要依赖于2D图像序列的时序信息进行多目标跟踪，但在视角变化剧烈、光照条件复杂或遮挡严重的情况下，跟踪性能会显著下降，难以保证身份ID的一致性。此外，缺乏全局3D上下文信息也限制了对场景的整体理解。

核心思路：本文的核心思路是将2D视觉语义信息与3D几何信息进行融合，利用3D重建提供的全局上下文约束来指导2D图像的分割和关联。通过建立跨视角的几何对应关系，可以克服传统2D跟踪方法对时序信息的过度依赖，从而提高跟踪的鲁棒性和准确性。3D驱动的关联机制能够更好地维护目标在不同视角下的身份一致性。

技术框架：该框架主要包含以下几个阶段：1) 零样本2D检测与分割：利用预训练模型或零样本学习方法，对街景图像进行2D目标检测和分割，提取视觉语义信息。2) 基于运动结构的3D重建（SfM）：利用多视角图像进行3D场景重建，生成点云或网格模型，提供全局几何上下文。3) 2D-3D关联：将2D分割结果与3D重建结果进行关联，建立2D像素与3D点的对应关系。4) 3D驱动的关联：利用3D几何一致性约束，对2D分割结果进行关联，实现跨视角的稳定跟踪。该模块取代了传统的2D多目标跟踪。

关键创新：该方法最重要的创新点在于提出了一个联合2D-3D分割与关联的框架，将视觉语义信息与几何信息进行深度融合。与传统的2D跟踪方法相比，该方法利用3D重建提供的全局上下文约束，能够更好地处理视角变化、光照变化和遮挡等问题，从而提高跟踪的鲁棒性和准确性。此外，3D驱动的关联机制能够更好地维护目标在不同视角下的身份一致性。

关键设计：具体的技术细节包括：1) 使用预训练的视觉Transformer模型进行零样本2D分割。2) 使用增量式SfM算法进行3D重建，并进行全局Bundle Adjustment优化。3) 使用RANSAC算法进行2D-3D对应关系估计。4) 设计了一种基于3D几何一致性的损失函数，用于优化2D分割结果的关联。损失函数可能包含点到面距离、视角一致性等约束。

🖼️ 关键图片

📊 实验亮点

实验结果表明，该方法在具有挑战性的城市街景场景中，相比于最先进的2D跟踪方法，ground-truth序列的覆盖率显著提高，身份保持能力更强，整体性能提升了22%。这表明该方法在复杂场景下具有更强的鲁棒性和准确性。

🎯 应用场景

该研究成果可应用于大规模城市地图绘制、自动驾驶、机器人导航、增强现实等领域。通过构建精确的街景3D模型和语义地图，可以为自动驾驶车辆提供更可靠的环境感知信息，为机器人导航提供更准确的定位和路径规划，为增强现实应用提供更逼真的虚拟场景。

📄 摘要（原文）

Accurate interpretation of street-level imagery is essential for large-scale urban mapping and the creation of Spatial Digital Twin (SDT) environments. This work presents a unified framework for joint 2D-3D segmentation and association that integrates visual semantics with multi-view geometric reasoning. Unlike conventional approaches that rely heavily on sequential frames for temporal tracking, our method leverages zero-shot detection and segmentation together with structure-from-motion reconstruction to establish stable cross-view correspondences. A 3D-driven association mechanism replaces traditional 2D multi-object tracking, using geometric consistency to guide identity preservation across wide-baseline viewpoints and varying imaging conditions. By combining 2D texture cues with global 3D context, the proposed pipeline is well-suited for scalable street-level processing and can be used for a variety of object types. Experiments demonstrate substantially improved coverage of ground-truth sequences and more robust identity retention compared to state-of-the-art 2D-only tracking methods, achieving a 22% performance gain in challenging urban scenarios.

Joint 2D-3D Segmentation and Association in Street-level Imaging

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理