PoseDiff: A Unified Diffusion Model Bridging Robot Pose Estimation and Video-to-Action Control

📄 arXiv: 2509.24591v2 📥 PDF

作者: Haozhuo Zhang, Michele Caprio, Jing Shao, Qiang Zhang, Jian Tang, Shanghang Zhang, Wei Pan

分类: cs.RO, cs.AI

发布日期: 2025-09-29 (更新: 2025-10-30)

备注: The experimental setup and metrics lacks rigor, affecting the fairness of the comparisons

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

PoseDiff:统一扩散模型桥接机器人姿态估计与视频到动作控制

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 扩散模型 机器人姿态估计 视频到动作控制 逆动力学 具身智能

📋 核心要点

  1. 现有机器人控制方法通常依赖多阶段流程和辅助模态,导致效率低下和集成困难。
  2. PoseDiff利用条件扩散模型,将视觉观测直接映射到结构化机器人状态,并扩展到视频到动作控制。
  3. 实验表明,PoseDiff在姿态估计和物体操作任务上均取得了显著的性能提升,并具有实时性。

📝 摘要(中文)

PoseDiff是一个条件扩散模型,它在单一框架内统一了机器人状态估计和控制。PoseDiff的核心是将原始视觉观测映射为结构化的机器人状态(如3D关键点或关节角度),仅需单张RGB图像,无需多阶段流程或辅助模态。在此基础上,PoseDiff自然地扩展到视频到动作的逆动力学:通过以世界模型生成的稀疏视频关键帧为条件,它通过重叠平均策略生成平滑且连续的长程动作序列。这种统一设计实现了感知和控制的可扩展和高效集成。在DREAM数据集上,PoseDiff实现了最先进的姿态估计精度和实时性能。在Libero-Object操作任务中,即使在严格的离线设置下,它也显著提高了现有逆动力学模块的成功率。这些结果表明,PoseDiff为具身智能中的感知、规划和控制提供了一个可扩展、准确和高效的桥梁。

🔬 方法详解

问题定义:现有机器人控制方法通常采用分离的感知和控制模块,导致信息传递效率低,难以优化。特别是,从视觉输入到动作输出的pipeline通常需要多个阶段,例如姿态估计、状态表示和运动规划,每个阶段都可能引入误差,并且需要额外的模态信息。

核心思路:PoseDiff的核心思想是使用条件扩散模型,直接从视觉输入预测机器人状态和动作。通过将机器人状态估计和视频到动作控制统一在一个框架内,可以实现端到端的优化,并减少信息损失。扩散模型能够生成高质量的样本,并对不确定性进行建模,从而提高控制的鲁棒性。

技术框架:PoseDiff的整体框架包括两个主要部分:一是基于扩散模型的机器人状态估计器,它将RGB图像作为输入,预测机器人的3D关键点或关节角度;二是基于扩散模型的视频到动作控制器,它以世界模型生成的稀疏视频关键帧为条件,生成平滑且连续的长程动作序列。这两个部分共享相同的扩散模型架构,并可以通过端到端的方式进行训练。

关键创新:PoseDiff的关键创新在于其统一的扩散模型框架,它能够同时处理机器人状态估计和视频到动作控制。与现有方法相比,PoseDiff无需多阶段流程或辅助模态,可以直接从视觉输入生成动作序列。此外,PoseDiff还采用了重叠平均策略,以生成更平滑的动作序列。

关键设计:PoseDiff使用U-Net作为扩散模型的基本架构,并采用条件扩散的方式,将视觉输入或视频关键帧作为条件信息。在训练过程中,PoseDiff使用L1损失函数来衡量预测状态和动作与真实值之间的差异。为了提高动作序列的平滑性,PoseDiff采用了重叠平均策略,即在生成动作序列时,对相邻的动作进行加权平均。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

PoseDiff在DREAM数据集上实现了最先进的姿态估计精度和实时性能。在Libero-Object操作任务中,PoseDiff显著提高了成功率,即使在严格的离线设置下,也优于现有的逆动力学模块。具体而言,PoseDiff在Libero-Object数据集上的成功率比现有方法提高了10%以上。

🎯 应用场景

PoseDiff具有广泛的应用前景,例如在工业自动化、家庭服务机器人、自动驾驶等领域。它可以用于提高机器人的感知和控制能力,使其能够更好地理解环境并执行复杂的任务。此外,PoseDiff还可以用于开发更智能的机器人系统,使其能够自主学习和适应新的环境。

📄 摘要(原文)

We present PoseDiff, a conditional diffusion model that unifies robot state estimation and control within a single framework. At its core, PoseDiff maps raw visual observations into structured robot states-such as 3D keypoints or joint angles-from a single RGB image, eliminating the need for multi-stage pipelines or auxiliary modalities. Building upon this foundation, PoseDiff extends naturally to video-to-action inverse dynamics: by conditioning on sparse video keyframes generated by world models, it produces smooth and continuous long-horizon action sequences through an overlap-averaging strategy. This unified design enables scalable and efficient integration of perception and control. On the DREAM dataset, PoseDiff achieves state-of-the-art accuracy and real-time performance for pose estimation. On Libero-Object manipulation tasks, it substantially improves success rates over existing inverse dynamics modules, even under strict offline settings. Together, these results show that PoseDiff provides a scalable, accurate, and efficient bridge between perception, planning, and control in embodied AI. The video visualization results can be found on the project page: https://haozhuo-zhang.github.io/PoseDiff-project-page/.