Data-Asymmetric Latent Imagination and Reranking for 3D Robotic Imitation Learning
作者: Lianghao Luo, Xizhou Bu, Ruyan Liu, Qingqiu Huang, Chufeng Tang, Xiaoshuai Hao, Hongbo Wang, Wei Li
分类: cs.RO
发布日期: 2026-05-11
💡 一句话要点
提出DALI-R框架,通过数据非对称潜空间想象与重排序提升3D机器人模仿学习性能
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 机器人模仿学习 3D点云 世界模型 潜空间想象 动作重排序 扩散模型 流匹配
📋 核心要点
- 现有模仿学习过度依赖高质量演示,忽略了混合质量数据中蕴含的环境动力学与失败模式信息。
- DALI-R通过构建3D潜空间世界模型进行想象推演,并引入任务完成评分器对动作块进行重排序。
- 该方法在Adroit与MetaWorld基准上显著提升了成功率,且保持了高效的推理性能,无需额外数据。
📝 摘要(中文)
机器人模仿学习通常假设拥有最优演示数据,但现实中收集的数据往往包含次优、探索性甚至失败的轨迹。直接丢弃这些数据会浪费关于环境动力学和失败模式的重要信息。尽管3D策略通过强大的空间泛化能力降低了对高质量演示的依赖,但仍需大规模数据以实现高成功率。为此,本文提出了DALI-R(数据非对称潜空间想象与重排序)框架,用于从混合质量轨迹中进行3D机器人模仿学习。该框架通过在3D点云上学习潜空间世界模型进行想象推演,并利用任务完成评分器对候选动作块进行重排序,从而在无需额外高质量演示的情况下提升决策能力。DALI-R在扩散模型和流匹配策略上进行了验证,在Adroit和MetaWorld基准测试中,平均成功率提升了6.8%,且推理开销增加不到0.7倍。
🔬 方法详解
问题定义:机器人模仿学习面临数据质量参差不齐的挑战。现有方法往往仅利用最优轨迹,导致对次优或失败轨迹中蕴含的丰富环境动力学信息利用不足,且3D策略在数据稀缺时难以达到高成功率。
核心思路:引入“数据非对称”思想,将高质量数据用于策略学习,同时利用混合质量数据训练潜空间世界模型。通过在潜空间进行想象推演,评估不同动作序列的潜在结果,从而实现对策略输出的动态优化。
技术框架:框架包含三个核心模块:一是基于3D点云的潜空间世界模型,用于学习环境演化规律;二是策略网络(支持扩散或流匹配),负责生成候选动作块;三是任务完成评分器,负责对想象出的轨迹进行评估并重排序。
关键创新:核心创新在于将“想象”与“重排序”机制引入3D模仿学习。通过非对称利用数据,使模型既能从成功轨迹中学习策略,又能从失败轨迹中学习环境约束,从而在推理阶段通过重排序纠正次优动作。
关键设计:采用3D点云作为输入以增强空间泛化性;利用潜空间世界模型进行多步想象推演,通过评分器计算动作块的预期成功概率,从而在推理时从多个候选动作中筛选出最优解,有效降低了对大规模高质量数据的依赖。
🖼️ 关键图片
📊 实验亮点
DALI-R在Adroit和MetaWorld基准测试中表现优异,在集成扩散模型与流匹配策略的情况下,平均成功率提升了6.8%。此外,该框架在推理阶段表现出极高的效率,额外推理开销低于0.7倍,证明了其在实时机器人控制系统中的可行性与高效性。
🎯 应用场景
该研究适用于工业机器人操作、家庭服务机器人及复杂环境下的自动化任务。通过有效利用低质量或失败的实验数据,该方法能显著降低机器人部署的数据采集成本,提升在未知环境中的鲁棒性与任务成功率,具有极高的实际应用价值。
📄 摘要(原文)
Robotic imitation learning typically assumes access to optimal demonstrations, yet real-world data collection often yields suboptimal, exploratory, or even failed trajectories. Discarding such data wastes valuable information about environment dynamics and failure modes, which can instead be leveraged to improve decision-making. While 3D policies reduce reliance on high-quality demonstrations through strong spatial generalization, they still require large-scale data to achieve high task success. To address this, we propose DALI-R, a Data-Asymmetric Latent Imagination and Reranking framework for 3D robotic imitation learning from mixed-quality trajectories. It learns a Latent World Model over 3D point clouds for imagined rollouts and a Task Completion Scorer that reranks candidate action chunks, improving decision-making without additional high-quality demonstrations. We instantiate DALI-R with both diffusion and efficient flow-matching policies and evaluate it on Adroit and MetaWorld benchmarks. Across the two evaluated 3D base policies, DALI-R achieves an average $6.8$\% improvement in success rate while incurring less than $0.7\times$ additional inference overhead.