Lotus: Diffusion-based Visual Foundation Model for High-quality Dense Prediction
作者: Jing He, Haodong Li, Wei Yin, Yixun Liang, Leheng Li, Kaiqiang Zhou, Hongbo Zhang, Bingbing Liu, Ying-Cong Chen
分类: cs.CV
发布日期: 2024-09-26 (更新: 2025-01-18)
备注: The first two authors contributed equally. Project page: https://lotus3d.github.io/
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
Lotus:基于扩散模型的高质量密集预测视觉基础模型
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 扩散模型 密集预测 视觉基础模型 零样本学习 深度估计
📋 核心要点
- 现有方法直接套用图像生成扩散模型于密集预测,忽略了任务差异,导致性能瓶颈。
- Lotus通过直接预测标注而非噪声,并采用单步扩散过程,简化优化并加速推理。
- 引入细节保留器调优策略,无需增加数据或模型容量,即可实现更精确的预测结果。
📝 摘要(中文)
本文提出了一种基于扩散模型的视觉基础模型Lotus,旨在提升密集预测任务中的零样本泛化能力。现有方法直接采用原始扩散模型公式,忽略了密集预测与图像生成之间的差异。本文系统分析了适用于密集预测的扩散公式,发现图像生成任务中常用的噪声预测参数化方法对密集预测有害,且多步噪声/去噪扩散过程不必要且难以优化。基于此,Lotus被训练为直接预测标注而非噪声,避免了有害方差。同时,将扩散过程简化为单步过程,简化了优化并显著提高了推理速度。此外,还引入了一种名为“细节保留器”的新型调优策略,实现了更准确和精细的预测。在不增加训练数据或模型容量的情况下,Lotus在各种数据集上的零样本深度和法线估计方面实现了SoTA性能,并提高了效率,速度远超现有基于扩散的方法。Lotus的卓越质量和效率使其能够应用于联合估计、单/多视图3D重建等实际应用。
🔬 方法详解
问题定义:论文旨在解决密集预测任务中,现有基于扩散模型的零样本泛化能力不足的问题。现有方法直接采用为图像生成设计的扩散模型,忽略了密集预测与图像生成之间的本质区别,导致性能受限,效率低下。
核心思路:论文的核心思路是针对密集预测任务,重新设计扩散模型的训练和推理过程。通过直接预测标注信息,避免了噪声预测带来的方差问题,并采用单步扩散过程,简化优化过程,提高推理速度。
技术框架:Lotus模型主要包含以下几个部分:1) 一个预训练的视觉Transformer作为特征提取器;2) 一个扩散模型,用于将提取的特征映射到密集的预测结果;3) 一个细节保留器,用于在微调阶段保留图像的细节信息。整个流程包括:首先,使用视觉Transformer提取图像特征;然后,使用单步扩散模型直接预测标注;最后,使用细节保留器进行微调,以提高预测精度。
关键创新:论文的关键创新在于:1) 提出了直接预测标注的扩散模型训练方法,避免了噪声预测带来的问题;2) 将多步扩散过程简化为单步过程,显著提高了推理速度;3) 引入了细节保留器,用于在微调阶段保留图像的细节信息,提高预测精度。
关键设计:在训练过程中,Lotus使用L1损失函数来衡量预测标注与真实标注之间的差异。细节保留器通过在微调阶段引入额外的损失项,鼓励模型保留图像的细节信息。单步扩散过程通过直接学习从特征到标注的映射,避免了多步迭代带来的计算开销。
🖼️ 关键图片
📊 实验亮点
Lotus在零样本深度和法线估计任务上取得了显著的性能提升,在多个数据集上达到了SoTA水平。例如,在NYU Depth V2数据集上,Lotus的性能超越了现有的基于扩散模型的方法,并且推理速度提升了数倍。此外,细节保留器策略进一步提升了预测的精度和细节。
🎯 应用场景
Lotus具有广泛的应用前景,例如深度估计、表面法线估计、语义分割等。其高效性和高质量使其能够应用于自动驾驶、机器人导航、三维重建、虚拟现实等领域。未来,Lotus有望成为视觉领域的基础模型,为各种下游任务提供强大的支持。
📄 摘要(原文)
Leveraging the visual priors of pre-trained text-to-image diffusion models offers a promising solution to enhance zero-shot generalization in dense prediction tasks. However, existing methods often uncritically use the original diffusion formulation, which may not be optimal due to the fundamental differences between dense prediction and image generation. In this paper, we provide a systemic analysis of the diffusion formulation for the dense prediction, focusing on both quality and efficiency. And we find that the original parameterization type for image generation, which learns to predict noise, is harmful for dense prediction; the multi-step noising/denoising diffusion process is also unnecessary and challenging to optimize. Based on these insights, we introduce Lotus, a diffusion-based visual foundation model with a simple yet effective adaptation protocol for dense prediction. Specifically, Lotus is trained to directly predict annotations instead of noise, thereby avoiding harmful variance. We also reformulate the diffusion process into a single-step procedure, simplifying optimization and significantly boosting inference speed. Additionally, we introduce a novel tuning strategy called detail preserver, which achieves more accurate and fine-grained predictions. Without scaling up the training data or model capacity, Lotus achieves SoTA performance in zero-shot depth and normal estimation across various datasets. It also enhances efficiency, being significantly faster than most existing diffusion-based methods. Lotus' superior quality and efficiency also enable a wide range of practical applications, such as joint estimation, single/multi-view 3D reconstruction, etc. Project page: https://lotus3d.github.io/.