DexSynRefine: Synthesizing and Refining Human-Object Interaction Motion for Physically Feasible Dexterous Robot Actions

作者: Hyesung Lee, Hyunwoo Jung, Si-Hwan Heo, Sungwook Yang

分类: cs.RO

发布日期: 2026-05-07

备注: Project page: https://dexsynrefine.github.io/

💡 一句话要点

DexSynRefine：合成与优化人-物交互运动，实现物理可行的灵巧机器人操作

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱五：交互与反应 (Interaction & Reaction) 支柱七：动作重定向 (Motion Retargeting)

关键词: 灵巧操作 人-物交互 运动合成 强化学习 Sim-to-Real

📋 核心要点

从人-物交互数据中学习灵巧操作是一种可扩展的方法，但现有HOI演示数据稀疏，且仅提供运动学信息，难以直接应用于机器人。
DexSynRefine框架通过HOI-MMFP合成轨迹，利用任务空间残差强化学习策略进行物理可行性优化，并使用接触和动力学自适应模块实现sim-to-real迁移。
实验表明，该方法在五个灵巧操作任务中，仿真和真实机器人上的性能均优于现有基线，相比运动学重定向提升显著。

📝 摘要（中文）

本文提出DexSynRefine框架，用于从人-物交互(HOI)数据中学习灵巧操作。该框架包含三个耦合组件：HOI-MMFP，它是运动流形基元的扩展，以任务和物体初始状态为条件，从稀疏的HOI演示中合成协调的手-物轨迹；任务空间残差强化学习策略，在继承运动结构的同时，为合成的参考轨迹提供物理基础；以及接触和动力学自适应模块，通过本体感受历史实现从仿真到真实的迁移。在涵盖抓取放置、工具使用和物体重定向的五个灵巧操作任务中，我们的任务空间残差策略在仿真中优于先前的动作表示基线，并在所有五个任务中迁移到真实机器人，相比于运动学重定向，性能提升了50-70个百分点。

🔬 方法详解

问题定义：现有方法难以直接将人类演示的灵巧操作迁移到机器人上，主要痛点在于：1) 人类演示数据稀疏，难以覆盖所有可能的任务状态；2) 人类演示仅提供运动学信息，忽略了机器人操作中重要的动力学和接触力；3) 机器人与人类的形态差异以及仿真与真实环境的差异，导致直接的运动学重定向效果不佳。

核心思路：本文的核心思路是将人类演示作为运动学引导，通过学习一个残差策略来弥补运动学引导的不足，从而实现物理可行的灵巧操作。这种方法结合了人类演示的先验知识和强化学习的优化能力，能够在稀疏数据和环境差异下实现鲁棒的控制。

技术框架：DexSynRefine框架包含三个主要模块：1) HOI-MMFP：基于运动流形基元，从稀疏的HOI演示中合成手-物轨迹，提供运动学引导；2) 任务空间残差强化学习策略：学习一个残差动作，用于修正HOI-MMFP生成的轨迹，使其满足动力学约束，并在任务空间中进行优化；3) 接触和动力学自适应模块：利用本体感受历史信息，对仿真环境进行自适应，从而实现从仿真到真实的迁移。

关键创新：该方法最重要的创新点在于：1) 将人类演示的运动学信息与强化学习的动力学优化相结合，充分利用了人类演示的先验知识，并克服了直接运动学重定向的局限性；2) 提出了任务空间残差强化学习策略，能够在任务空间中直接优化机器人的动作，避免了关节空间的复杂计算；3) 设计了接触和动力学自适应模块，有效缓解了仿真与真实环境的差异，提高了sim-to-real迁移的性能。

关键设计：HOI-MMFP使用高斯混合模型对人类演示数据进行建模，并使用期望最大化算法进行参数估计。任务空间残差强化学习策略使用Actor-Critic框架，Actor网络输出残差动作，Critic网络评估当前状态的价值。奖励函数设计为任务完成奖励、动作惩罚和状态惩罚的加权和。接触和动力学自适应模块使用循环神经网络对本体感受历史信息进行建模，并预测仿真环境的参数。

🖼️ 关键图片

📊 实验亮点

实验结果表明，DexSynRefine框架在五个灵巧操作任务中均取得了显著的性能提升。在仿真环境中，任务空间残差策略优于先前的动作表示基线。在真实机器人上，相比于运动学重定向，性能提升了50-70个百分点，验证了该方法的有效性和鲁棒性。

🎯 应用场景

该研究成果可应用于各种需要灵巧操作的机器人应用场景，例如：工业自动化中的精密装配、医疗机器人中的微创手术、家庭服务机器人中的物品整理等。通过学习人类的灵巧操作技能，机器人可以更好地适应复杂和非结构化的环境，提高工作效率和安全性，具有广阔的应用前景。

📄 摘要（原文）

Learning dexterous manipulation from human-object interaction (HOI) data is a scalable alternative to teleoperation, but HOI demonstrations are sparse and provide only kinematic motion that is not directly executable under embodiment mismatch and contact-rich dynamics. We present DexSynRefine, a framework with three coupled components: HOI-MMFP, a task- and object-initial-state-conditioned extension of motion manifold primitives that synthesizes coordinated hand-object trajectories from sparse HOI demonstrations; a task-space residual RL policy that physically grounds the synthesized reference while inheriting its kinematic structure; and a contact-and-dynamics adaptation module that enables sim-to-real transfer from proprioceptive history. Across five dexterous manipulation tasks spanning pick-and-place, tool use, and object reorientation, our task-space residual policy outperforms prior action-representation baselines in simulations and transfers to a real robot on all five tasks, improving over kinematic retargeting by 50-70 percentage points.

DexSynRefine: Synthesizing and Refining Human-Object Interaction Motion for Physically Feasible Dexterous Robot Actions

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理