Speedy MASt3R

📄 arXiv: 2503.10017v1 📥 PDF

作者: Jingxing Li, Yongjae Lee, Abhay Kumar Yadav, Cheng Peng, Rama Chellappa, Deliang Fan

分类: cs.CV

发布日期: 2025-03-13


💡 一句话要点

Speedy MASt3R:通过后训练优化加速图像匹配,实现实时3D场景理解

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 图像匹配 3D视觉 后训练优化 模型加速 实时场景理解

📋 核心要点

  1. 现有MASt3R方法在图像匹配精度上表现出色,但推理速度较慢,限制了其在实时场景中的应用,主要瓶颈在于ViT编码器-解码器和FastNN匹配的计算开销。
  2. Speedy MASt3R通过后训练优化框架,集成FlashMatch、GraphFusion、FastNN-Lite和HybridCast等多种技术,在不损失精度的前提下,显著提升推理效率。
  3. 实验结果表明,Speedy MASt3R在多个数据集上实现了54%的推理时间减少,从198ms/图像对降低到91ms/图像对,有效提升了实时3D场景理解能力。

📝 摘要(中文)

图像匹配是现代3D视觉算法的关键组成部分,对于精确的场景重建和定位至关重要。MASt3R通过利用DUSt3R并将图像匹配重新定义为3D任务,并引入了一种快速互易匹配方案,在保持理论保证的同时,将匹配速度提高了几个数量级。DUSt3R和MASt3R在短时间内被引用超过250次,突显了它们的影响力。然而,尽管MASt3R具有很高的精度,但其推理速度仍然是一个瓶颈。在A40 GPU上,每个图像对的延迟为198.16毫秒,这主要是由于ViT编码器-解码器和快速互易最近邻(FastNN)匹配带来的计算开销。为了解决这个问题,我们引入了Speedy MASt3R,这是一个后训练优化框架,可以在保持精度的同时提高推理效率。它集成了多种优化技术,包括FlashMatch(一种利用FlashAttention v2和分块策略来提高效率的方法),通过层和张量融合以及使用TensorRT进行内核自动调整的计算图优化(GraphFusion),以及简化的FastNN流水线,该流水线将内存访问时间从二次方降低到线性,同时通过矢量化计算加速块状相关性评分(FastNN-Lite)。此外,它还采用了具有FP16/FP32混合计算的混合精度推理(HybridCast),从而在提高速度的同时保持了数值精度。在Aachen Day-Night、InLoc、7-Scenes、ScanNet1500和MegaDepth1500上进行评估,Speedy MASt3R在不牺牲精度的情况下,实现了54%的推理时间减少(每个图像对从198毫秒减少到91毫秒)。这一进步实现了实时3D理解,有益于混合现实导航和大规模3D场景重建等应用。

🔬 方法详解

问题定义:MASt3R虽然在图像匹配精度上表现出色,但其推理速度较慢,限制了其在实时性要求高的3D视觉应用中的应用。主要痛点在于ViT编码器-解码器以及FastNN匹配过程中的计算开销过大,导致整体推理延迟较高。

核心思路:Speedy MASt3R的核心思路是通过后训练优化,在不改变模型结构和参数的前提下,提升模型的推理效率。通过集成多种优化技术,包括FlashAttention加速、计算图优化、高效的最近邻搜索以及混合精度推理,从而在保持精度的同时,显著降低推理时间。

技术框架:Speedy MASt3R的整体框架是一个后训练优化流程,主要包含以下几个模块: 1. FlashMatch: 利用FlashAttention v2和分块策略加速注意力计算。 2. GraphFusion: 通过层和张量融合,并结合TensorRT进行内核自动调优,优化计算图。 3. FastNN-Lite: 改进FastNN流水线,降低内存访问时间,并通过矢量化计算加速相关性评分。 4. HybridCast: 采用FP16/FP32混合精度推理,在保证数值精度的前提下,提高计算速度。

关键创新:Speedy MASt3R的关键创新在于将多种优化技术集成到一个统一的后训练优化框架中,并针对MASt3R模型的特点进行了定制化设计。例如,FastNN-Lite通过优化内存访问和矢量化计算,显著提升了最近邻搜索的效率。此外,HybridCast策略在保证精度的前提下,进一步加速了推理过程。

关键设计: 1. FlashMatch: 采用FlashAttention v2,并根据硬件特性选择合适的分块大小。 2. GraphFusion: 利用TensorRT进行自动内核调优,选择最优的计算图执行方式。 3. FastNN-Lite: 将内存访问从二次方复杂度降低到线性复杂度,并采用SIMD指令进行矢量化计算。 4. HybridCast: 根据不同层的计算特性,选择FP16或FP32精度,以平衡精度和速度。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

Speedy MASt3R在Aachen Day-Night、InLoc、7-Scenes、ScanNet1500和MegaDepth1500等多个数据集上进行了评估,实验结果表明,该方法在不牺牲精度的情况下,实现了54%的推理时间减少,从198毫秒/图像对降低到91毫秒/图像对,显著提升了图像匹配的速度。

🎯 应用场景

Speedy MASt3R的加速图像匹配能力,使其能够应用于对实时性要求较高的3D视觉任务中,例如混合现实导航、机器人定位、以及大规模3D场景重建。该方法降低了计算成本,使得在资源受限的设备上部署高精度3D视觉算法成为可能,从而推动相关技术在更广泛的领域落地。

📄 摘要(原文)

Image matching is a key component of modern 3D vision algorithms, essential for accurate scene reconstruction and localization. MASt3R redefines image matching as a 3D task by leveraging DUSt3R and introducing a fast reciprocal matching scheme that accelerates matching by orders of magnitude while preserving theoretical guarantees. This approach has gained strong traction, with DUSt3R and MASt3R collectively cited over 250 times in a short span, underscoring their impact. However, despite its accuracy, MASt3R's inference speed remains a bottleneck. On an A40 GPU, latency per image pair is 198.16 ms, mainly due to computational overhead from the ViT encoder-decoder and Fast Reciprocal Nearest Neighbor (FastNN) matching. To address this, we introduce Speedy MASt3R, a post-training optimization framework that enhances inference efficiency while maintaining accuracy. It integrates multiple optimization techniques, including FlashMatch-an approach leveraging FlashAttention v2 with tiling strategies for improved efficiency, computation graph optimization via layer and tensor fusion having kernel auto-tuning with TensorRT (GraphFusion), and a streamlined FastNN pipeline that reduces memory access time from quadratic to linear while accelerating block-wise correlation scoring through vectorized computation (FastNN-Lite). Additionally, it employs mixed-precision inference with FP16/FP32 hybrid computations (HybridCast), achieving speedup while preserving numerical precision. Evaluated on Aachen Day-Night, InLoc, 7-Scenes, ScanNet1500, and MegaDepth1500, Speedy MASt3R achieves a 54% reduction in inference time (198 ms to 91 ms per image pair) without sacrificing accuracy. This advancement enables real-time 3D understanding, benefiting applications like mixed reality navigation and large-scale 3D scene reconstruction.