Cross-Attentive Multiview Fusion of Vision-Language Embeddings
作者: Tomas Berriel Martins, Martin R. Oswald, Javier Civera
分类: cs.CV
发布日期: 2026-04-14
💡 一句话要点
提出CAMFusion,通过交叉注意力多视角融合提升3D场景语义分割性能。
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 多视角融合 视觉-语言模型 3D语义分割 交叉注意力 Transformer 自监督学习 实例分类
📋 核心要点
- 现有方法在将2D视觉-语言模型应用于3D场景时,多视角信息融合策略不足,导致3D表示性能受限。
- 提出一种基于Transformer的交叉注意力机制,有效融合来自多个视角的视觉-语言描述符,生成统一的3D实例嵌入。
- 利用多视角一致性作为自监督信号,进一步提升模型性能,并在多个3D语义分割和实例分类任务上取得SOTA结果。
📝 摘要(中文)
视觉-语言模型在开放词汇2D语义分割中发挥了关键作用。然而,将这些模型从2D图像扩展到3D场景仍然是一个具有挑战性的问题。现有方法通常反向投影并平均多个视角的2D描述符,或者启发式地选择单个代表性描述符,这通常会导致次优的3D表示。本文提出了一种新的多视角Transformer架构,该架构交叉关注来自多个视角的视觉-语言描述符,并将它们融合为统一的每个3D实例嵌入。此外,本文利用多视角一致性作为融合的自监督信号,当添加到标准监督目标类别损失时,可以显著提高性能。本文提出的交叉注意力多视角融合方法(CAMFusion)不仅始终优于朴素平均或单视角描述符选择,而且在3D语义和实例分类基准测试中实现了最先进的结果,包括对领域外数据集的零样本评估。
🔬 方法详解
问题定义:现有方法在将2D视觉-语言模型应用于3D场景时,通常采用简单的平均或单视角选择策略融合多视角信息,导致3D场景的表示能力不足。这些方法无法充分利用不同视角提供的互补信息,从而限制了3D语义分割和实例分类的性能。
核心思路:本文的核心思路是利用Transformer的注意力机制,学习不同视角视觉-语言描述符之间的关系,从而实现更有效的多视角信息融合。通过交叉注意力机制,模型可以关注到不同视角中与当前3D实例相关的特征,并抑制无关信息,从而生成更具判别性的3D实例嵌入。
技术框架:CAMFusion的整体框架包括以下几个主要步骤:1) 从多个视角提取视觉-语言描述符;2) 使用Transformer的交叉注意力模块融合这些描述符,生成每个3D实例的统一嵌入;3) 使用监督学习损失(例如交叉熵损失)训练模型,同时可选地添加基于多视角一致性的自监督损失。
关键创新:本文的关键创新在于提出了交叉注意力多视角融合(CAMFusion)模块,该模块能够自适应地学习不同视角描述符之间的权重,从而实现更有效的信息融合。此外,利用多视角一致性作为自监督信号,进一步提升了模型的泛化能力。
关键设计:CAMFusion模块使用Transformer编码器结构,其中每个视角的描述符作为输入。交叉注意力机制允许模型关注来自其他视角的特征,并学习它们之间的关系。多视角一致性损失通过鼓励模型生成在不同视角下一致的预测来提高模型的鲁棒性。具体的损失函数选择和网络结构参数需要根据具体任务进行调整。
🖼️ 关键图片
📊 实验亮点
CAMFusion在3D语义分割和实例分类任务上取得了显著的性能提升,超越了现有的平均和单视角选择方法。在ScanNet数据集上,CAMFusion在语义分割任务上取得了SOTA结果。更重要的是,在领域外数据集上的零样本评估中,CAMFusion也表现出强大的泛化能力,证明了其鲁棒性和实用性。
🎯 应用场景
该研究成果可应用于自动驾驶、机器人导航、三维场景理解等领域。通过提升3D场景的语义分割和实例分类精度,可以帮助机器人更好地理解周围环境,从而实现更安全、更智能的交互。此外,该方法在零样本学习方面的表现,使其在新的、未见过的场景中也具有良好的适应性。
📄 摘要(原文)
Vision-language models have been key to the development of open-vocabulary 2D semantic segmentation. Lifting these models from 2D images to 3D scenes, however, remains a challenging problem. Existing approaches typically back-project and average 2D descriptors across views, or heuristically select a single representative one, often resulting in suboptimal 3D representations. In this work, we introduce a novel multiview transformer architecture that cross-attends across vision-language descriptors from multiple viewpoints and fuses them into a unified per-3D-instance embedding. As a second contribution, we leverage multiview consistency as a self-supervision signal for this fusion, which significantly improves performance when added to a standard supervised target-class loss. Our Cross-Attentive Multiview Fusion, which we denote with its acronym CAMFusion, not only consistently outperforms naive averaging or single-view descriptor selection, but also achieves state-of-the-art results on 3D semantic and instance classification benchmarks, including zero-shot evaluations on out-of-domain datasets.