Decomposed Object Manipulation via Dual-Actor Policy

作者: Bin Fan, Jian-Jian Jiang, Zhuohao Li, Xiao-Ming Wu, Yi-Xiang He, YiHan Yang, Shengbang Liu, Wei-Shi Zheng

分类: cs.RO

发布日期: 2025-11-07 (更新: 2025-12-16)

💡 一句话要点

提出双Actor策略DAP，解决物体操作任务中不同阶段的策略学习问题

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 物体操作 双Actor策略 可供性先验 运动流先验 分阶段学习 机器人控制 强化学习

📋 核心要点

现有物体操作方法忽略了任务的阶段性，依赖单一策略学习整个过程，导致性能受限。
提出双Actor策略DAP，利用可供性先验和运动流先验，分别优化接近和操作阶段。
构建包含视觉先验的模拟数据集，实验表明DAP在多个场景中显著优于现有方法。

📝 摘要（中文）

本文提出了一种新颖的双Actor策略（DAP），用于解决物体操作任务中不同阶段的问题。DAP显式地考虑了接近阶段和操作阶段，并利用异构视觉先验来增强每个阶段。具体来说，引入了一个基于可供性的Actor来定位操作任务中的功能部件，从而改进接近过程。随后，提出了一个基于运动流的Actor来捕捉部件的运动，从而促进操作过程。最后，引入了一个决策器来确定DAP的当前阶段并选择相应的Actor。此外，为了解决现有物体操作数据集对象数量少且缺乏训练所需的视觉先验的问题，构建了一个模拟数据集，即双先验物体操作数据集，该数据集结合了两种视觉先验，并包括七个任务，包括两个具有挑战性的长期多阶段任务。在我们的数据集、RoboTwin基准和真实场景中的实验结果表明，我们的方法始终优于SOTA方法，平均分别提高了5.55%、14.7%和10.4%。

🔬 方法详解

问题定义：现有的物体操作方法通常使用单一策略来学习整个操作过程，忽略了操作任务通常包含接近和操作两个阶段的特性。这种单一策略难以同时优化两个阶段，导致性能瓶颈。此外，现有的数据集对象数量有限，且缺乏足够的视觉先验信息，不利于策略的学习。

核心思路：本文的核心思路是将物体操作任务分解为接近阶段和操作阶段，并为每个阶段设计专门的Actor。通过引入可供性先验来指导接近阶段，利用运动流先验来指导操作阶段，从而实现对两个阶段的独立优化。同时，使用决策器来动态选择合适的Actor，以适应不同的任务阶段。

技术框架：DAP包含三个主要模块：基于可供性的Actor、基于运动流的Actor和决策器。基于可供性的Actor负责定位物体上的可操作部件，指导机械臂进行接近；基于运动流的Actor负责捕捉部件的运动，指导机械臂进行操作；决策器根据当前状态选择合适的Actor执行动作。整个流程如下：首先，决策器根据当前状态选择Actor；然后，选定的Actor生成动作；最后，环境执行动作并返回新的状态，用于决策器进行下一步决策。

关键创新：DAP的关键创新在于：1) 显式地将物体操作任务分解为接近和操作两个阶段，并为每个阶段设计专门的Actor；2) 引入可供性先验和运动流先验来指导Actor的学习，从而提高策略的效率和泛化能力；3) 构建包含视觉先验的模拟数据集，为DAP的训练提供充足的数据支持。与现有方法的本质区别在于，DAP不再依赖单一策略来学习整个操作过程，而是通过分阶段学习和异构先验的引入，实现了更高效、更鲁棒的物体操作。

关键设计：可供性Actor的网络结构未知，运动流Actor的网络结构未知，决策器的具体实现方式未知。数据集包含七个任务，包括两个具有挑战性的长期多阶段任务，具体任务细节未知。损失函数和训练细节未知。

🖼️ 关键图片

📊 实验亮点

实验结果表明，DAP在自建数据集上平均优于SOTA方法5.55%，在RoboTwin基准上平均优于14.7%，在真实场景中平均优于10.4%。这些结果表明，DAP在多个场景中都具有显著的性能优势，验证了其有效性和泛化能力。尤其是在RoboTwin基准上的大幅提升，表明DAP在复杂环境下的适应性更强。

🎯 应用场景

该研究成果可应用于各种机器人操作任务，例如智能家居中的物品整理、工业生产线上的零件组装、医疗手术中的器械操作等。通过提高机器人操作的效率和鲁棒性，可以降低人工成本，提高生产效率，并改善人们的生活质量。未来，该方法有望扩展到更复杂的环境和任务中，实现更智能、更自主的机器人操作。

📄 摘要（原文）

Object manipulation, which focuses on learning to perform tasks on similar parts across different types of objects, can be divided into an approaching stage and a manipulation stage. However, previous works often ignore this characteristic of the task and rely on a single policy to directly learn the whole process of object manipulation. To address this problem, we propose a novel Dual-Actor Policy, termed DAP, which explicitly considers different stages and leverages heterogeneous visual priors to enhance each stage. Specifically, we introduce an affordance-based actor to locate the functional part in the manipulation task, thereby improving the approaching process. Following this, we propose a motion flow-based actor to capture the movement of the component, facilitating the manipulation process. Finally, we introduce a decision maker to determine the current stage of DAP and select the corresponding actor. Moreover, existing object manipulation datasets contain few objects and lack the visual priors needed to support training. To address this, we construct a simulated dataset, the Dual-Prior Object Manipulation Dataset, which combines the two visual priors and includes seven tasks, including two challenging long-term, multi-stage tasks. Experimental results on our dataset, the RoboTwin benchmark and real-world scenarios illustrate that our method consistently outperforms the SOTA method by 5.55%, 14.7% and 10.4% on average respectively.

Decomposed Object Manipulation via Dual-Actor Policy

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理