MoRE: 3D Visual Geometry Reconstruction Meets Mixture-of-Experts

📄 arXiv: 2510.27234v1 📥 PDF

作者: Jingnan Gao, Zhe Wang, Xianze Fang, Xingyu Ren, Zhuo Chen, Shengqi Liu, Yuhao Cheng, Jiangjing Lyu, Xiaokang Yang, Yichao Yan

分类: cs.CV

发布日期: 2025-10-31

备注: Project Page: https://g-1nonly.github.io/MoRE_Website/, Code: https://github.com/alibaba/Taobao3D


💡 一句话要点

提出MoRE:基于混合专家模型的3D视觉几何重建框架

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 3D视觉 几何重建 混合专家模型 深度估计 表面法线预测 视觉基础模型 动态路由 置信度估计

📋 核心要点

  1. 现有3D视觉几何重建模型难以扩展,受限于几何监督的复杂性和3D数据的多样性。
  2. MoRE采用混合专家架构,动态路由特征到特定专家,提升模型的可扩展性和适应性。
  3. MoRE在多个基准测试中达到SOTA,并支持高效的下游应用,无需额外计算。

📝 摘要(中文)

本文提出了一种名为MoRE的密集3D视觉基础模型,该模型基于混合专家(MoE)架构,能够动态地将特征路由到特定任务的专家,从而使专家能够专注于互补的数据方面,并增强可扩展性和适应性。为了提高在真实世界条件下的鲁棒性,MoRE包含一个基于置信度的深度细化模块,该模块可以稳定和细化几何估计。此外,它还集成了密集的语义特征与全局对齐的3D骨干表示,以实现高保真度的表面法线预测。MoRE通过定制的损失函数进一步优化,以确保在各种输入和多个几何任务中的鲁棒学习。大量实验表明,MoRE在多个基准测试中实现了最先进的性能,并支持有效的下游应用,而无需额外的计算。

🔬 方法详解

问题定义:论文旨在解决3D视觉几何重建中模型扩展的难题。现有方法受限于几何监督的复杂性以及3D数据的多样性,难以进一步提升模型性能和泛化能力。尤其是在真实场景下,几何估计的鲁棒性面临挑战。

核心思路:论文的核心思路是利用混合专家模型(MoE)架构,将模型能力分散到多个专家网络中,每个专家负责处理特定的数据特征或任务。通过动态路由机制,将输入特征分配给最合适的专家进行处理,从而提高模型的容量和效率。同时,引入置信度机制来提升深度估计的鲁棒性。

技术框架:MoRE的整体框架包含以下几个主要模块:1) 3D骨干网络:用于提取全局对齐的3D特征表示。2) 混合专家模块:包含多个专家网络,每个专家专注于不同的几何任务或数据特征。3) 动态路由模块:根据输入特征的特性,动态地将特征路由到最合适的专家。4) 置信度深度细化模块:用于稳定和细化深度估计结果。5) 表面法线预测模块:集成了密集的语义特征,用于高保真度的表面法线预测。

关键创新:MoRE的关键创新在于将混合专家模型引入到3D视觉几何重建任务中。与传统的单体模型相比,MoE架构能够显著提升模型的容量和表达能力,同时保持较高的计算效率。此外,置信度深度细化模块和表面法线预测模块也进一步提升了模型的鲁棒性和精度。

关键设计:MoRE的关键设计包括:1) 动态路由机制:采用可学习的路由函数,根据输入特征的相似度,将特征分配给不同的专家。2) 置信度估计:通过预测深度估计的不确定性,来指导深度细化过程。3) 定制的损失函数:针对不同的几何任务,设计了特定的损失函数,以确保模型的鲁棒学习。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

MoRE在多个3D视觉几何重建基准测试中取得了SOTA性能。实验结果表明,MoRE能够有效地提升深度估计和表面法线预测的精度,并且在真实场景下表现出更强的鲁棒性。与现有方法相比,MoRE在性能提升的同时,并没有引入额外的计算负担。

🎯 应用场景

MoRE在机器人导航、自动驾驶、虚拟现实、增强现实等领域具有广泛的应用前景。它可以用于构建高精度的3D环境地图,实现场景理解和物体识别,为机器人提供可靠的感知能力。此外,MoRE还可以用于生成逼真的3D模型,提升虚拟现实和增强现实的用户体验。

📄 摘要(原文)

Recent advances in language and vision have demonstrated that scaling up model capacity consistently improves performance across diverse tasks. In 3D visual geometry reconstruction, large-scale training has likewise proven effective for learning versatile representations. However, further scaling of 3D models is challenging due to the complexity of geometric supervision and the diversity of 3D data. To overcome these limitations, we propose MoRE, a dense 3D visual foundation model based on a Mixture-of-Experts (MoE) architecture that dynamically routes features to task-specific experts, allowing them to specialize in complementary data aspects and enhance both scalability and adaptability. Aiming to improve robustness under real-world conditions, MoRE incorporates a confidence-based depth refinement module that stabilizes and refines geometric estimation. In addition, it integrates dense semantic features with globally aligned 3D backbone representations for high-fidelity surface normal prediction. MoRE is further optimized with tailored loss functions to ensure robust learning across diverse inputs and multiple geometric tasks. Extensive experiments demonstrate that MoRE achieves state-of-the-art performance across multiple benchmarks and supports effective downstream applications without extra computation.