Efficient Test-Time Optimization for Depth Completion via Low-Rank Decoder Adaptation

📄 arXiv: 2603.01765 📥 PDF

作者: Minseok Seo, Wonjun Lee, Jaehyuk Jang, Changick Kim

分类: cs.CV

发布日期: 2026-04-06


💡 一句话要点

提出基于低秩解码器自适应的高效测试时深度补全方法

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 深度补全 测试时优化 低秩自适应 深度学习 零样本学习

📋 核心要点

  1. 现有零样本深度补全方法计算成本高,推理速度慢,难以满足实际应用需求。
  2. 论文提出仅自适应解码器的低维子空间,实现高效的测试时优化,降低计算复杂度。
  3. 实验结果表明,该方法在多个数据集上优于现有方法,并在准确性和效率之间取得了平衡。

📝 摘要(中文)

零样本深度补全因其无需特定传感器数据集或重新训练即可跨环境泛化的能力而备受关注。然而,现有方法大多依赖于基于扩散的测试时优化,由于迭代去噪,计算成本高昂。最近基于视觉提示的方法虽然降低了训练成本,但仍需通过完整的冻结网络进行重复的前向-后向传播来优化输入级提示,导致推理速度缓慢。本文表明,仅自适应解码器足以实现有效的测试时优化,因为深度基础模型将深度相关信息集中在低维解码器子空间内。基于此,我们提出了一种轻量级的测试时自适应方法,该方法仅使用稀疏深度监督来更新这个低维子空间。我们的方法实现了最先进的性能,在测试时自适应的准确性和效率之间建立了一个新的帕累托前沿。在五个室内和室外数据集上的大量实验表明,相对于先前方法,我们的方法具有持续的改进,突出了快速零样本深度补全的实用性。

🔬 方法详解

问题定义:论文旨在解决零样本深度补全中,现有基于扩散模型或视觉提示的方法在测试时优化过程中计算成本高、推理速度慢的问题。这些方法需要大量的迭代去噪或重复的前向-后向传播,限制了其在实际场景中的应用。

核心思路:论文的核心思路是,深度基础模型已经将深度相关的信息压缩到了一个低维的解码器子空间中。因此,只需要对解码器进行自适应调整,而无需修改整个网络,就可以实现有效的测试时优化,从而大大降低计算量。

技术框架:该方法主要包含以下几个阶段:1)使用预训练的深度基础模型进行初始深度预测;2)利用稀疏深度监督信息,对解码器的低维子空间进行自适应调整;3)使用调整后的解码器进行最终的深度补全。整体框架简单高效,易于实现。

关键创新:该方法最重要的创新点在于,它发现了深度基础模型中深度信息集中在低维解码器子空间的特性,并利用这一特性实现了高效的测试时优化。与现有方法相比,该方法避免了对整个网络或输入提示进行优化,大大降低了计算复杂度。

关键设计:论文的关键设计包括:1)使用低秩分解来表示解码器的低维子空间;2)设计了合适的损失函数,利用稀疏深度监督信息来更新低秩分解的参数;3)选择合适的优化算法,以保证自适应过程的稳定性和收敛速度。具体的参数设置和网络结构细节在论文中有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该方法在五个室内和室外数据集上进行了广泛的实验,结果表明,该方法在测试时自适应的准确性和效率之间建立了一个新的帕累托前沿。与现有方法相比,该方法在保持甚至提高精度的同时,显著降低了计算成本,实现了更快的推理速度。具体性能数据在论文中有详细展示。

🎯 应用场景

该研究成果可广泛应用于机器人导航、自动驾驶、增强现实等领域。通过高效的深度补全,可以提升机器人对环境的感知能力,提高自动驾驶系统的安全性,并为增强现实应用提供更逼真的深度信息。该方法具有很高的实际应用价值和商业潜力。

📄 摘要(原文)

Zero-shot depth completion has gained attention for its ability to generalize across environments without sensor-specific datasets or retraining. However, most existing approaches rely on diffusion-based test-time optimization, which is computationally expensive due to iterative denoising. Recent visual-prompt-based methods reduce training cost but still require repeated forward--backward passes through the full frozen network to optimize input-level prompts, resulting in slow inference. In this work, we show that adapting only the decoder is sufficient for effective test-time optimization, as depth foundation models concentrate depth-relevant information within a low-dimensional decoder subspace. Based on this insight, we propose a lightweight test-time adaptation method that updates only this low-dimensional subspace using sparse depth supervision. Our approach achieves state-of-the-art performance, establishing a new Pareto frontier between accuracy and efficiency for test-time adaptation. Extensive experiments on five indoor and outdoor datasets demonstrate consistent improvements over prior methods, highlighting the practicality of fast zero-shot depth completion.