DINOv3-Diffusion Policy: Self-Supervised Large Visual Model for Visuomotor Diffusion Policy Learning

作者: ThankGod Egbe, Peng Wang, Zhihao Guo, Zidong Chen

分类: cs.CV, cs.RO

发布日期: 2025-09-22

💡 一句话要点

DINOv3赋能扩散策略：用于机器人视觉运动策略学习的自监督大型视觉模型

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture)

关键词: 机器人操作 视觉运动策略 扩散策略 自监督学习 DINOv3 视觉编码器 迁移学习

📋 核心要点

现有机器人操作任务依赖ImageNet预训练模型，但其领域差异限制了性能和泛化能力。
论文提出利用自监督学习的DINOv3作为视觉编码器，探索其在视觉运动扩散策略学习中的潜力。
实验表明，微调的DINOv3在多个任务上超越ResNet-18，且冻结的DINOv3也表现出竞争力。

📝 摘要（中文）

本文评估了DINOv3，一种最新的大规模自监督视觉骨干网络，在机器人操作中的视觉运动扩散策略学习方面的性能。我们研究了在三种训练模式下：从头开始训练、冻结和微调，纯自监督编码器是否能与传统的监督ImageNet预训练骨干网络（例如，ResNet-18）相媲美或超越。在四个基准任务（Push-T、Lift、Can、Square）中使用统一的FiLM条件扩散策略，我们发现：（i）微调后的DINOv3在多个任务上与ResNet-18相匹配或超过；（ii）冻结的DINOv3仍然具有竞争力，表明其具有强大的可迁移先验知识；（iii）自监督特征提高了样本效率和鲁棒性。这些结果支持自监督大型视觉模型作为动作扩散策略的有效、可泛化的感知前端，从而推动了在机器人操作中对可扩展的无标签预训练的进一步探索。与使用ResNet18作为骨干网络相比，我们使用DINOv3的方法在Can等具有挑战性的任务中，测试时的成功率绝对提高了10%，并且在Lift、PushT和Square等任务中表现相当。

🔬 方法详解

问题定义：论文旨在解决机器人操作任务中，现有方法依赖ImageNet预训练模型导致的领域泛化性不足的问题。ImageNet预训练模型与机器人操作环境存在显著差异，限制了策略的学习效率和鲁棒性。

核心思路：论文的核心思路是利用大规模自监督学习得到的DINOv3模型作为视觉编码器，替代传统的ImageNet预训练模型。DINOv3通过自监督学习，能够学习到更通用的视觉特征，从而更好地适应机器人操作环境。这样设计的目的是为了提高策略的学习效率、泛化能力和鲁棒性。

技术框架：整体框架包含一个视觉编码器（DINOv3或ResNet-18）和一个FiLM条件扩散策略。视觉编码器将图像输入转换为特征向量，然后将特征向量输入到FiLM条件扩散策略中，生成动作。训练过程中，比较真实动作和预测动作之间的差异，更新策略参数。论文在三种模式下评估DINOv3：从头开始训练、冻结和微调。

关键创新：最重要的技术创新点在于将大规模自监督学习得到的DINOv3模型应用于机器人视觉运动策略学习。与传统的监督学习方法相比，自监督学习能够利用大量的无标签数据，学习到更通用的视觉特征。此外，论文还探索了DINOv3在不同训练模式下的性能，为实际应用提供了指导。

关键设计：论文使用FiLM条件扩散策略，该策略能够根据视觉特征动态调整扩散过程。损失函数采用均方误差（MSE）来衡量预测动作和真实动作之间的差异。实验中，作者使用了四个基准任务（Push-T、Lift、Can、Square）来评估不同模型的性能。DINOv3模型采用ViT架构，并使用大规模无标签图像数据进行预训练。

📊 实验亮点

实验结果表明，在Can任务中，使用微调后的DINOv3作为视觉编码器，测试时的成功率比使用ResNet-18提高了10%。在Lift、PushT和Square等任务中，DINOv3的性能与ResNet-18相当。此外，冻结的DINOv3也表现出竞争力，表明其具有强大的可迁移先验知识。这些结果验证了自监督学习在机器人视觉运动策略学习中的有效性。

🎯 应用场景

该研究成果可应用于各种机器人操作任务，例如物体抓取、装配、导航等。通过使用自监督学习得到的视觉模型，可以降低对大量标注数据的依赖，提高机器人在复杂环境中的适应性和泛化能力。未来，该方法有望推动机器人技术在工业自动化、医疗健康、家庭服务等领域的广泛应用。

📄 摘要（原文）

This paper evaluates DINOv3, a recent large-scale self-supervised vision backbone, for visuomotor diffusion policy learning in robotic manipulation. We investigate whether a purely self-supervised encoder can match or surpass conventional supervised ImageNet-pretrained backbones (e.g., ResNet-18) under three regimes: training from scratch, frozen, and finetuned. Across four benchmark tasks (Push-T, Lift, Can, Square) using a unified FiLM-conditioned diffusion policy, we find that (i) finetuned DINOv3 matches or exceeds ResNet-18 on several tasks, (ii) frozen DINOv3 remains competitive, indicating strong transferable priors, and (iii) self-supervised features improve sample efficiency and robustness. These results support self-supervised large visual models as effective, generalizable perceptual front-ends for action diffusion policies, motivating further exploration of scalable label-free pretraining in robotic manipulation. Compared to using ResNet18 as a backbone, our approach with DINOv3 achieves up to a 10% absolute increase in test-time success rates on challenging tasks such as Can, and on-the-par performance in tasks like Lift, PushT, and Square.

DINOv3-Diffusion Policy: Self-Supervised Large Visual Model for Visuomotor Diffusion Policy Learning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册