D-CLING: Prior-Preserving Depth-Conditioned Fine-Tuning for Navigation Foundation Models
作者: Shintaro Nakaoka, Takayuki Kanai, Kazuhito Tanaka
分类: cs.RO
发布日期: 2026-05-19
备注: This paper has been accepted to the 2026 IEEE International Conference on Robotics and Automation (ICRA 2026), which will be held in Vienna, Austria, from June 1 to 5, 2026
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
D-CLING:深度条件微调导航基础模型,保持先验知识并提升泛化性
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 导航基础模型 深度学习 微调 ControlNet 机器人导航 先验知识保持 几何信息 持续学习
📋 核心要点
- 现有导航模型微调易丢失预训练知识,导致避障能力下降和目标到达失败,泛化性受损。
- 受ControlNet启发,提出D-CLING方法,通过残差连接微调骨干网络,学习几何线索,同时保留预训练知识。
- 实验表明,D-CLING在真实导航中实现了鲁棒的长程导航,减少碰撞和人为干预,并提升了动作预测能力。
📝 摘要(中文)
导航基础模型(NFMs)在大型跨具身数据集上训练,已展示出在各种场景中的强大泛化能力。对NFM进行领域内微调可以有效地校准视觉运动策略,有望在新的场景中进一步改进。然而,微调后的模型仍然存在避障能力差或无法正确到达目标的问题。此外,使用少量数据进行模型更新通常会削弱预训练的先验知识,从而损害预训练的泛化能力。因此,微调会降低模型鲁棒和准确导航的能力。本文提出了一种新的微调方法,该方法利用大规模预训练,同时有效地学习新的设置,例如环境或相机配置。特别地,受到ControlNet的启发,我们通过使用零初始化的残差路径连接预训练骨干网络的可训练副本,从而微调NFM,从而学习几何线索。这种设计使模型能够有效地获取领域内几何信息,同时保持跨各种行为的预训练知识。尽管其简单性,我们对真实世界导航的全面评估表明,我们的提议有效地实现了鲁棒的长程导航,具有最小的碰撞和人为干预。此外,我们的离线分析表明,所提出的方法保持或进一步提高了超出微调数据集的动作预测能力,为通用导航的持续学习提供了关键见解。
🔬 方法详解
问题定义:论文旨在解决导航基础模型(NFM)在特定领域微调时,容易丢失预训练的先验知识,导致模型在新的环境或相机配置下,出现避障能力下降、无法准确到达目标等问题。现有微调方法难以兼顾领域适应性和泛化能力,影响了导航的鲁棒性和准确性。
核心思路:论文的核心思路是借鉴ControlNet的思想,在微调过程中,通过残差连接的方式,将一个可训练的预训练骨干网络副本添加到原始NFM中。这样,模型既可以学习特定领域的几何信息,又可以保留预训练的通用知识,从而在领域适应性和泛化能力之间取得平衡。
技术框架:D-CLING的技术框架主要包含以下几个部分:1) 预训练的导航基础模型(NFM);2) NFM骨干网络的可训练副本;3) 零初始化的残差连接,用于连接原始NFM和骨干网络副本;4) 深度信息作为条件输入,引导模型学习几何线索。整体流程是,将深度信息输入到NFM和骨干网络副本中,通过残差连接融合两者的特征,最终输出导航动作。
关键创新:D-CLING最重要的技术创新点在于,它采用了一种先验知识保持的微调策略。与传统的微调方法不同,D-CLING通过残差连接的方式,显式地保留了预训练的知识,避免了在微调过程中过度拟合特定领域的数据,从而提高了模型的泛化能力。此外,利用深度信息作为条件输入,增强了模型对几何信息的感知能力。
关键设计:D-CLING的关键设计包括:1) 使用零初始化的残差连接,确保在微调初期,模型主要依赖于预训练的知识;2) 将深度信息作为条件输入,引导模型学习几何线索;3) 对骨干网络副本进行微调,使其能够适应特定领域的数据;4) 通过实验验证了不同残差连接方式和深度信息编码方式的效果。
🖼️ 关键图片
📊 实验亮点
实验结果表明,D-CLING在真实世界导航中表现出色,能够实现鲁棒的长程导航,并显著减少碰撞和人为干预。离线分析表明,D-CLING不仅在微调数据集上表现良好,而且保持甚至提高了超出微调数据集的动作预测能力。这些结果验证了D-CLING在领域适应性和泛化能力方面的优势。
🎯 应用场景
D-CLING方法可应用于各种机器人导航场景,例如家庭服务机器人、自动驾驶汽车、无人机等。该方法能够提高机器人在复杂环境中的导航能力,减少碰撞和人为干预,提升用户体验。此外,该方法还可以用于持续学习,使机器人能够不断适应新的环境和任务。
📄 摘要(原文)
Navigation Foundation Models (NFMs) trained on large cross-embodied datasets have demonstrated powerful generalizability in various scenarios. Adopting in-domain fine-tuning for an NFM efficiently calibrates the visuomotor policy, promising further improvement even in a novel scenario. However, the fine-tuned models still suffer from poor obstacle avoidance or fail to properly reach the provided goals. Furthermore, model updates using a small subset of data typically erode the pre-trained prior, compromising the pre-training generalization. Consequently, fine-tuning deteriorates the capability of the model for robust and accurate navigation. In this work, we present a novel fine-tuning method that leverages large-scale pre-training while efficiently learning in novel setups, such as environments or camera configurations. In particular, inspired by ControlNet, we fine-tune an NFM by attaching a trainable copy of the pre-trained backbone using zero-initialized residual pathways, thereby learning geometric cues. This design enables the model to efficiently acquire in-domain geometry while preserving pre-trained knowledge across various behaviors. Despite its simplicity, our comprehensive evaluation of real-world navigation suggests that our proposal effectively enables robust long-horizon navigation with minimal collisions and human intervention. Additionally, our offline analysis shows that the proposed method maintains or further improves action prediction capabilities beyond the fine-tuned dataset, providing a key insight into continual learning for general navigation. The project page: https://toyotafrc.github.io/DCLING-Proj/