Spectral Rectification for Parameter-Efficient Adaptation of Foundation Models in Colonoscopy Depth Estimation
作者: Xiaoxian Zhang, Minghai Shi, Lei Li
分类: cs.CV
发布日期: 2026-03-16
备注: 15 pages
💡 一句话要点
SpecDepth:通过频谱校正实现结肠镜深度估计中基础模型的高效自适应
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 结肠镜深度估计 频谱校正 自适应学习 医学图像分析 基础模型 小波分解
📋 核心要点
- 现有方法难以将自然图像上预训练的模型直接应用于结肠镜深度估计,主要原因是频域统计信息的差异。
- SpecDepth通过可学习的小波分解,显式地建模和放大特征图中衰减的高频分量,从而校正频谱失配。
- 在C3VD和SimCol3D数据集上,SpecDepth取得了state-of-the-art的性能,绝对相对误差分别降低至0.022和0.027。
📝 摘要(中文)
精确的单目深度估计在结肠镜检查中对于病灶定位和导航至关重要。在自然图像上训练的基础模型无法直接泛化到结肠镜图像。我们发现核心问题不是语义差距,而是频域中的统计偏移:结肠镜图像缺乏模型用于几何推理的强高频边缘和纹理梯度。为此,我们提出了SpecDepth,一个参数高效的自适应框架,它保留了预训练模型的鲁棒几何表示,同时适应结肠镜领域。其关键创新是自适应频谱校正模块,该模块使用可学习的小波分解来显式地建模和放大特征图中衰减的高频分量。与可能扭曲高级语义特征的传统微调不同,这种有针对性的低级调整使输入信号与基础模型的原始归纳偏置对齐。在公开的C3VD和SimCol3D数据集上,SpecDepth实现了最先进的性能,绝对相对误差分别为0.022和0.027。我们的工作表明,直接解决频谱失配是将视觉基础模型适应于专门的医学成像任务的一种非常有效的策略。
🔬 方法详解
问题定义:论文旨在解决结肠镜图像深度估计问题。现有方法,特别是直接应用在自然图像上预训练的基础模型,在结肠镜图像上表现不佳。主要痛点在于结肠镜图像与自然图像在频域上存在显著差异,结肠镜图像缺乏足够的高频信息,导致模型无法有效进行几何推理。
核心思路:论文的核心思路是通过频谱校正来弥合结肠镜图像和自然图像之间的频域差异。具体来说,通过增强结肠镜图像中的高频成分,使其更符合预训练模型所学习的图像统计特性,从而提高深度估计的准确性。这种方法避免了直接微调整个模型可能导致的过拟合和语义信息损失。
技术框架:SpecDepth框架主要包含一个预训练的深度估计模型和一个自适应频谱校正模块。首先,输入结肠镜图像通过预训练模型提取特征。然后,这些特征图被送入自适应频谱校正模块,该模块使用可学习的小波分解来分析特征图的频谱,并选择性地放大高频分量。最后,经过校正的特征图被用于深度估计。
关键创新:该论文的关键创新在于提出了自适应频谱校正模块,该模块能够显式地建模和放大特征图中衰减的高频分量。与传统的图像增强方法不同,SpecDepth直接在特征空间进行频谱校正,更加灵活和有效。此外,使用可学习的小波分解使得频谱校正能够自适应地适应不同的结肠镜图像。
关键设计:自适应频谱校正模块的核心是可学习的小波分解。具体来说,该模块使用一组可学习的小波滤波器将特征图分解成不同频率的子带。然后,该模块学习一组权重,用于放大高频子带的幅度。这些权重是根据输入特征图自适应地调整的。此外,论文还设计了一个损失函数,用于鼓励频谱校正模块增强高频信息,同时保持低频信息的稳定性。
🖼️ 关键图片
📊 实验亮点
SpecDepth在C3VD和SimCol3D两个公开数据集上取得了state-of-the-art的性能。在C3VD数据集上,SpecDepth的绝对相对误差降低至0.022,在SimCol3D数据集上降低至0.027。这些结果表明,通过频谱校正,可以显著提高基础模型在结肠镜深度估计任务中的性能。
🎯 应用场景
该研究成果可应用于结肠镜检查中的辅助诊断和手术导航。通过提供准确的深度信息,医生可以更好地定位病灶、评估病变程度,并规划手术路径。此外,该方法还可以推广到其他医学图像分析任务中,例如内窥镜图像分析、显微图像分析等,具有广泛的应用前景。
📄 摘要(原文)
Accurate monocular depth estimation is critical in colonoscopy for lesion localization and navigation. Foundation models trained on natural images fail to generalize directly to colonoscopy. We identify the core issue not as a semantic gap, but as a statistical shift in the frequency domain: colonoscopy images lack the strong high-frequency edge and texture gradients that these models rely on for geometric reasoning. To address this, we propose SpecDepth, a parameter-efficient adaptation framework that preserves the robust geometric representations of the pre-trained models while adapting to the colonoscopy domain. Its key innovation is an adaptive spectral rectification module, which uses a learnable wavelet decomposition to explicitly model and amplify the attenuated high-frequency components in feature maps. Different from conventional fine-tuning that risks distorting high-level semantic features, this targeted, low-level adjustment realigns the input signal with the original inductive bias of the foundational model. On the public C3VD and SimCol3D datasets, SpecDepth achieved state-of-the-art performance with an absolute relative error of 0.022 and 0.027, respectively. Our work demonstrates that directly addressing spectral mismatches is a highly effective strategy for adapting vision foundation models to specialized medical imaging tasks. The code will be released publicly after the manuscript is accepted for publication.