Ada3Drift: Adaptive Training-Time Drifting for One-Step 3D Visuomotor Robotic Manipulation

作者: Chongyang Xu, Yixian Zou, Ziliang Feng, Fanman Meng, Shuaicheng Liu

分类: cs.CV

发布日期: 2026-03-12

💡 一句话要点

Ada3Drift：通过自适应训练时漂移实现单步3D视觉伺服机器人操作

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 机器人操作 视觉伺服 单步生成 多模态学习 训练时漂移 少样本学习 深度学习

📋 核心要点

扩散模型在机器人视觉伺服控制中推理延迟高，难以实时控制，而单步生成方法又损失了多模态动作的保真度。
Ada3Drift的核心思想是将迭代细化从推理阶段转移到训练阶段，学习一个漂移场，引导预测动作靠近专家演示模式，远离其他生成样本。
实验表明，Ada3Drift在多个模拟和真实机器人任务中实现了最先进的性能，且函数评估次数显著减少。

📝 摘要（中文）

基于扩散的视觉伺服策略通过迭代去噪有效地捕捉多模态动作分布，但其高推理延迟限制了实时机器人控制。最近的流匹配和基于一致性的方法实现了单步生成，但牺牲了保持不同动作模式的能力，将多模态行为坍缩为平均的、通常在物理上不可行的轨迹。我们观察到机器人技术中计算预算的不对称性（离线训练 vs. 实时推理）自然地促使通过将迭代细化从推理时间转移到训练时间来恢复这种多模态保真度。基于这一洞察，我们提出了Ada3Drift，它学习一个训练时漂移场，该漂移场将预测的动作吸引到专家演示模式，同时将它们从其他生成的样本中排斥，从而能够从3D点云观测中进行高保真单步生成（1 NFE）。为了处理少样本机器人场景，Ada3Drift进一步引入了从粗略分布学习到模式锐化细化的sigmoid调度损失转换，以及捕获不同空间粒度动作模式的多尺度场聚合。在三个模拟基准（Adroit、Meta-World和RoboTwin）和真实机器人操作任务上的实验表明，Ada3Drift实现了最先进的性能，同时比基于扩散的替代方案减少了10倍的函数评估次数。

🔬 方法详解

问题定义：论文旨在解决基于视觉的机器人操作中，如何在保证实时性的前提下，生成具有多模态特性的动作。现有基于扩散模型的方法虽然能捕捉多模态动作分布，但推理速度慢；而单步生成方法虽然速度快，却容易将多模态行为平均化，导致动作轨迹在物理上不可行。

核心思路：论文的核心思路是将计算负担从推理阶段转移到训练阶段。通过在训练时引入一个“漂移场”，引导模型生成的动作靠近专家演示的动作模式，同时远离其他生成的样本，从而在单步生成中保留多模态特性。这种方法利用了机器人任务中离线训练和在线推理的计算资源不对称性。

技术框架：Ada3Drift的整体框架包括以下几个关键模块：1) 一个用于预测动作的单步生成模型；2) 一个训练时漂移场，用于引导动作生成；3) 一个sigmoid调度损失函数，用于平衡粗略分布学习和模式锐化细化；4) 一个多尺度场聚合模块，用于捕获不同空间粒度的动作模式。训练过程中，模型首先进行粗略的分布学习，然后逐渐过渡到模式锐化细化，最终学习到一个能够生成高质量单步动作的策略。

关键创新：Ada3Drift的关键创新在于训练时漂移场的引入。与传统的单步生成方法不同，Ada3Drift不是直接学习一个平均的动作分布，而是通过漂移场将生成的动作推向不同的动作模式，从而保留了多模态特性。此外，sigmoid调度损失函数和多尺度场聚合模块进一步提升了模型在少样本机器人场景下的性能。

关键设计：Ada3Drift的关键设计包括：1) 漂移场的具体形式，例如可以使用神经网络来参数化漂移场；2) sigmoid调度损失函数的具体形式，如何平衡粗略分布学习和模式锐化细化；3) 多尺度场聚合模块的具体实现，如何选择不同的尺度以及如何聚合不同尺度的信息。此外，损失函数的权重、学习率等超参数的选择也会影响模型的性能。

🖼️ 关键图片

📊 实验亮点

Ada3Drift在Adroit、Meta-World和RoboTwin等模拟基准测试以及真实机器人操作任务中均取得了state-of-the-art的性能。与基于扩散模型的替代方案相比，Ada3Drift在保证性能的同时，将函数评估次数减少了10倍，显著提高了推理速度。这使得Ada3Drift更适合于实时机器人控制。

🎯 应用场景

Ada3Drift在机器人操作领域具有广泛的应用前景，例如可以应用于工业自动化、家庭服务机器人、医疗机器人等场景。该方法能够提高机器人在复杂环境中的操作能力，使其能够更好地适应不同的任务需求。此外，该方法还可以应用于其他需要生成多模态行为的领域，例如游戏AI、动画生成等。

📄 摘要（原文）

Diffusion-based visuomotor policies effectively capture multimodal action distributions through iterative denoising, but their high inference latency limits real-time robotic control. Recent flow matching and consistency-based methods achieve single-step generation, yet sacrifice the ability to preserve distinct action modes, collapsing multimodal behaviors into averaged, often physically infeasible trajectories. We observe that the compute budget asymmetry in robotics (offline training vs.\ real-time inference) naturally motivates recovering this multimodal fidelity by shifting iterative refinement from inference time to training time. Building on this insight, we propose Ada3Drift, which learns a training-time drifting field that attracts predicted actions toward expert demonstration modes while repelling them from other generated samples, enabling high-fidelity single-step generation (1 NFE) from 3D point cloud observations. To handle the few-shot robotic regime, Ada3Drift further introduces a sigmoid-scheduled loss transition from coarse distribution learning to mode-sharpening refinement, and multi-scale field aggregation that captures action modes at varying spatial granularities. Experiments on three simulation benchmarks (Adroit, Meta-World, and RoboTwin) and real-world robotic manipulation tasks demonstrate that Ada3Drift achieves state-of-the-art performance while requiring $10\times$ fewer function evaluations than diffusion-based alternatives.

Ada3Drift: Adaptive Training-Time Drifting for One-Step 3D Visuomotor Robotic Manipulation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理