PoseDiff: A Unified Diffusion Model Bridging Robot Pose Estimation and Video-to-Action Control

作者: Haozhuo Zhang, Michele Caprio, Jing Shao, Qiang Zhang, Jian Tang, Shanghang Zhang, Wei Pan

分类: cs.RO, cs.AI

发布日期: 2025-09-29 (更新: 2025-10-30)

备注: The experimental setup and metrics lacks rigor, affecting the fairness of the comparisons

🔗 代码/项目: PROJECT_PAGE

💡 一句话要点

PoseDiff：统一扩散模型桥接机器人姿态估计与视频到动作控制

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 扩散模型 机器人姿态估计 视频到动作控制 逆动力学 具身智能

📋 核心要点

现有机器人控制方法通常依赖多阶段流程和辅助模态，导致效率低下和集成困难。
PoseDiff利用条件扩散模型，将视觉观测直接映射到结构化机器人状态，并扩展到视频到动作控制。
实验表明，PoseDiff在姿态估计和物体操作任务上均取得了显著的性能提升，并具有实时性。

📝 摘要（中文）

PoseDiff是一个条件扩散模型，它在单一框架内统一了机器人状态估计和控制。PoseDiff的核心是将原始视觉观测映射为结构化的机器人状态（如3D关键点或关节角度），仅需单张RGB图像，无需多阶段流程或辅助模态。在此基础上，PoseDiff自然地扩展到视频到动作的逆动力学：通过以世界模型生成的稀疏视频关键帧为条件，它通过重叠平均策略生成平滑且连续的长程动作序列。这种统一设计实现了感知和控制的可扩展和高效集成。在DREAM数据集上，PoseDiff实现了最先进的姿态估计精度和实时性能。在Libero-Object操作任务中，即使在严格的离线设置下，它也显著提高了现有逆动力学模块的成功率。这些结果表明，PoseDiff为具身智能中的感知、规划和控制提供了一个可扩展、准确和高效的桥梁。

🔬 方法详解

问题定义：现有机器人控制方法通常采用分离的感知和控制模块，导致信息传递效率低，难以优化。特别是，从视觉输入到动作输出的pipeline通常需要多个阶段，例如姿态估计、状态表示和运动规划，每个阶段都可能引入误差，并且需要额外的模态信息。

核心思路：PoseDiff的核心思想是使用条件扩散模型，直接从视觉输入预测机器人状态和动作。通过将机器人状态估计和视频到动作控制统一在一个框架内，可以实现端到端的优化，并减少信息损失。扩散模型能够生成高质量的样本，并对不确定性进行建模，从而提高控制的鲁棒性。

技术框架：PoseDiff的整体框架包括两个主要部分：一是基于扩散模型的机器人状态估计器，它将RGB图像作为输入，预测机器人的3D关键点或关节角度；二是基于扩散模型的视频到动作控制器，它以世界模型生成的稀疏视频关键帧为条件，生成平滑且连续的长程动作序列。这两个部分共享相同的扩散模型架构，并可以通过端到端的方式进行训练。

关键创新：PoseDiff的关键创新在于其统一的扩散模型框架，它能够同时处理机器人状态估计和视频到动作控制。与现有方法相比，PoseDiff无需多阶段流程或辅助模态，可以直接从视觉输入生成动作序列。此外，PoseDiff还采用了重叠平均策略，以生成更平滑的动作序列。

关键设计：PoseDiff使用U-Net作为扩散模型的基本架构，并采用条件扩散的方式，将视觉输入或视频关键帧作为条件信息。在训练过程中，PoseDiff使用L1损失函数来衡量预测状态和动作与真实值之间的差异。为了提高动作序列的平滑性，PoseDiff采用了重叠平均策略，即在生成动作序列时，对相邻的动作进行加权平均。

🖼️ 关键图片

📊 实验亮点

PoseDiff在DREAM数据集上实现了最先进的姿态估计精度和实时性能。在Libero-Object操作任务中，PoseDiff显著提高了成功率，即使在严格的离线设置下，也优于现有的逆动力学模块。具体而言，PoseDiff在Libero-Object数据集上的成功率比现有方法提高了10%以上。

🎯 应用场景

PoseDiff具有广泛的应用前景，例如在工业自动化、家庭服务机器人、自动驾驶等领域。它可以用于提高机器人的感知和控制能力，使其能够更好地理解环境并执行复杂的任务。此外，PoseDiff还可以用于开发更智能的机器人系统，使其能够自主学习和适应新的环境。

📄 摘要（原文）

We present PoseDiff, a conditional diffusion model that unifies robot state estimation and control within a single framework. At its core, PoseDiff maps raw visual observations into structured robot states-such as 3D keypoints or joint angles-from a single RGB image, eliminating the need for multi-stage pipelines or auxiliary modalities. Building upon this foundation, PoseDiff extends naturally to video-to-action inverse dynamics: by conditioning on sparse video keyframes generated by world models, it produces smooth and continuous long-horizon action sequences through an overlap-averaging strategy. This unified design enables scalable and efficient integration of perception and control. On the DREAM dataset, PoseDiff achieves state-of-the-art accuracy and real-time performance for pose estimation. On Libero-Object manipulation tasks, it substantially improves success rates over existing inverse dynamics modules, even under strict offline settings. Together, these results show that PoseDiff provides a scalable, accurate, and efficient bridge between perception, planning, and control in embodied AI. The video visualization results can be found on the project page: https://haozhuo-zhang.github.io/PoseDiff-project-page/.

PoseDiff: A Unified Diffusion Model Bridging Robot Pose Estimation and Video-to-Action Control

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理