DexFuture: Hierarchical Future-State Visuomotor Targeting for Bimanual Dexterous Tool Use
作者: Runfa Blark Li, Kuang-Ting Tu, Nikola Raicevic, Dwait Bhatt, Xinshuang Liu, Keito Suzuki, Ki Myung Brian Lee, Nikolay Atanasov, Truong Nguyen
分类: cs.RO
发布日期: 2026-06-04
💡 一句话要点
提出DexFuture以解决双手灵巧工具使用中的动态一致性问题
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱六:视频提取与匹配 (Video Extraction)
关键词: 双手灵巧操作 视觉运动控制 层次化系统 机器人技术 动态一致性 目标条件策略 高效规划
📋 核心要点
- 现有方法在双手灵巧工具使用中面临高维手部配置和复杂动态接触的挑战,难以生成动态一致的未来参考轨迹。
- DexFuture通过高层未来状态视觉运动目标预测器和低层目标条件结构化灵巧策略的结合,解决了未来轨迹生成与动作控制的耦合问题。
- 在OakInk2双手工具使用任务中,DexFuture的性能达到了90%的特权-Oracle水平,相较于无参考策略的7%有显著提升。
📝 摘要(中文)
双手灵巧工具使用对机器人仍然是一个挑战,主要由于手部配置的高维性和复杂的手-工具-物体动态接触。现有控制策略通常依赖于演示提供的未来配置参考,而未来动作条件的世界模型则需要在高维动作序列上进行缓慢的在线规划。为了解决这一问题,本文提出了DexFuture,一个层次化系统,结合了高层的未来状态视觉运动目标预测器和低层的目标条件结构化灵巧策略。该系统在自我中心的RGB、感觉和几何历史的条件下,构建了结构化的手-工具-物体视觉运动嵌入,并使用条件变换器生成多步未来目标轨迹。实验结果表明,DexFuture在OakInk2双手工具使用任务中达到了90%的特权-Oracle性能,显示出显著的提升。
🔬 方法详解
问题定义:本文旨在解决双手灵巧工具使用中动态一致性未来轨迹生成的问题。现有方法依赖于演示提供的状态或缓慢的反事实规划,导致效率低下。
核心思路:DexFuture通过层次化设计,将未来状态预测与动作控制解耦,利用高层预测器生成未来目标轨迹,低层策略则快速跟踪这些轨迹,从而提高了执行效率。
技术框架:DexFuture的整体架构包括两个主要模块:高层的未来状态视觉运动目标预测器和低层的目标条件结构化灵巧策略。高层模块使用条件变换器生成多步未来目标,低层模块则通过目标条件的每个链节变换器进行跟踪。
关键创新:DexFuture的创新在于其层次化结构,成功解耦了粗略未来参考生成与精细动作控制,显著提高了执行速度和动态一致性。
关键设计:在设计中,使用了自我中心的RGB、感觉和几何历史作为输入,采用了条件变换器来生成目标轨迹,确保了高频执行与长时间语义预测的有效结合。
🖼️ 关键图片
📊 实验亮点
DexFuture在OakInk2双手工具使用任务中表现出色,达到了90%的特权-Oracle性能,相比之下,无参考策略仅为7%。此外,DexFuture以60 Hz的频率运行,速度约为DexWM风格的交叉熵方法规划的250倍,显示出显著的效率提升。
🎯 应用场景
DexFuture的研究成果在机器人操作、自动化制造和人机协作等领域具有广泛的应用潜力。其高效的双手灵巧工具使用能力可以提升机器人在复杂环境中的操作灵活性和效率,推动智能机器人技术的发展。
📄 摘要(原文)
Bimanual dexterous tool use remains challenging for robots due to high-dimensional hand configurations and complex hand-tool-object dynamics and contact. Most existing control policies depend on future configuration references provided from demonstrations, while future action-conditioned world models require slow online planning over high-dimensional action sequences. A significant challenge is generating a dynamically consistent future reference trajectory without relying on privileged states from demonstrations or slow counterfactual planning. We propose DexFuture, a hierarchical system that couples a high-level Future-State Visuomotor Target Predictor with a low-level Target-Conditioned Structured Dexterous Policy. Conditioned on egocentric RGB, proprioceptive and geometric history, the high-level predictor constructs structured hand-tool-object visuomotor embeddings and uses a horizon-conditioned transformer to generate a multi-step future target trajectory. Then, the low-level policy tracks them with a target-conditioned per-link transformer. This hierarchy decouples coarse future reference generation from fine-grained action control, and slow long-horizon semantic prediction from high-frequency execution. On OakInk2 bimanual tool-use tasks, DexFuture achieves 90% of the privileged-oracle performance, compared to 7% for a no-reference policy. DexFuture operates at 60 Hz, approximately 250 times faster than DexWM-style Cross-Entropy Method (CEM) planning with a future action-conditioned world model.