Robotic Manipulation Framework Based on Semantic Keypoints for Packing Shoes of Different Sizes, Shapes, and Softness
作者: Yi Dong, Yangjun Liu, Jinjun Duan, Yang Li, Zhendong Dai
分类: cs.RO
发布日期: 2025-09-07
备注: Yi Dong and Yangjun Liu contributed equally to the work. Accepted by Robotics and Autonomous Systems. https://authors.elsevier.com/c/1lgjX3HdG3supQ
期刊: Robotics and Autonomous Systems, vol. 194, Dec. 2025, 105174
DOI: 10.1016/j.robot.2025.105174
💡 一句话要点
提出基于语义关键点的机器人操作框架,用于不同尺寸、形状和软硬度的鞋子装箱
🎯 匹配领域: 支柱一:机器人控制 (Robot Control)
关键词: 机器人操作 鞋子装箱 语义关键点 重定向规划 可变形物体 自动化仓储 物流 配对物品
📋 核心要点
- 现有鞋子装箱方法难以处理鞋子形状不规则和初始状态多样的问题,导致装箱效率低下。
- 提出基于语义关键点的感知模块,结合重定向规划器和装箱规划器,实现任意初始状态下鞋子的自动装箱。
- 实验验证了该框架在不同类型鞋子上的鲁棒性和有效性,为3D可变形物体操作提供了新思路。
📝 摘要(中文)
随着仓储和物流行业的快速发展,货物装箱逐渐受到学术界和工业界的关注。鞋类产品的装箱是一项典型的配对物品装箱任务,涉及不规则形状和可变形物体。尽管已经有一些关于鞋子装箱的研究,但由于鞋子形状不规则以及标准装箱放置姿势,不同的初始状态尚未被充分考虑。本研究提出了一个机器人操作框架,包括感知模块、重定向规划器和装箱规划器,可以完成任意初始状态下成对鞋子的装箱。首先,为了适应鞋子的状态、形状和变形所带来的大的类内差异,我们提出了一个基于语义关键点的视觉模块,该模块还可以通过结合几何特征来推断更多信息,如尺寸、状态、姿势和操作点。随后,我们不仅提出了基于原语的重定向方法,用于单个可变形鞋子的不同状态,而且还提出了一种利用盒子边缘接触和重力的快速重定向方法,进一步提高了重定向的效率。最后,基于感知模块和重定向方法,我们提出了一个用于任意初始状态下鞋子配对装箱的任务规划器,以提供最佳的装箱策略。通过实际实验验证了重定向方法的鲁棒性和装箱策略对各种类型鞋子的有效性。本研究强调了语义关键点表示方法的潜力,为3D可变形物体的重定向和多物体操作引入了新的视角,并为配对物体装箱提供了参考。
🔬 方法详解
问题定义:论文旨在解决机器人自动装箱鞋子的问题,特别是针对不同尺寸、形状和软硬度的鞋子,以及它们在装箱前的任意初始状态。现有方法通常假设鞋子具有特定的初始姿态,或者无法有效处理鞋子的可变形特性,导致装箱效率和鲁棒性不足。
核心思路:论文的核心思路是利用语义关键点来表示鞋子的状态,并结合重定向规划器和装箱规划器,实现对任意初始状态鞋子的自动装箱。语义关键点能够提供鞋子的尺寸、姿态和可操作点等信息,从而为后续的重定向和装箱规划提供依据。
技术框架:该机器人操作框架主要包含三个模块:感知模块、重定向规划器和装箱规划器。感知模块负责检测鞋子的语义关键点,并估计其状态和姿态。重定向规划器根据鞋子的状态,选择合适的重定向策略,将其调整到便于装箱的姿态。装箱规划器则根据鞋子的尺寸和形状,以及箱子的空间,规划最佳的装箱策略。
关键创新:该论文的关键创新在于以下几个方面:1) 提出了一种基于语义关键点的鞋子表示方法,能够有效处理鞋子的形状和状态变化;2) 设计了多种重定向策略,能够适应不同初始状态的鞋子;3) 提出了一个完整的机器人操作框架,实现了对任意初始状态鞋子的自动装箱。
关键设计:感知模块使用了深度学习模型来检测鞋子的语义关键点,并结合几何特征进行姿态估计。重定向规划器采用了基于原语的重定向方法,以及利用盒子边缘接触和重力的快速重定向方法。装箱规划器则采用了启发式搜索算法,寻找最佳的装箱策略。具体的参数设置和网络结构等技术细节在论文中进行了详细描述(未知)。
🖼️ 关键图片
📊 实验亮点
论文通过真实世界的实验验证了所提出框架的有效性。实验结果表明,该框架能够成功处理各种类型和初始状态的鞋子,实现了高效的自动装箱。具体的性能数据和对比基线在论文中进行了详细描述(未知),但摘要中强调了重定向方法的鲁棒性和装箱策略的有效性。
🎯 应用场景
该研究成果可应用于自动化仓储、物流和电商等领域,实现鞋类产品的自动分拣、包装和装箱,提高物流效率,降低人工成本。此外,该方法还可以推广到其他类似形状不规则、易变形物体的装箱任务中,具有广泛的应用前景。
📄 摘要(原文)
With the rapid development of the warehousing and logistics industries, the packing of goods has gradually attracted the attention of academia and industry. The packing of footwear products is a typical representative paired-item packing task involving irregular shapes and deformable objects. Although studies on shoe packing have been conducted, different initial states due to the irregular shapes of shoes and standard packing placement poses have not been considered. This study proposes a robotic manipulation framework, including a perception module, reorientation planners, and a packing planner, that can complete the packing of pairs of shoes in any initial state. First, to adapt to the large intraclass variations due to the state, shape, and deformation of the shoe, we propose a vision module based on semantic keypoints, which can also infer more information such as size, state, pose, and manipulation points by combining geometric features. Subsequently, we not only proposed primitive-based reorientation methods for different states of a single deformable shoe but also proposed a fast reorientation method for the top state using box edge contact and gravity, which further improved the efficiency of reorientation. Finally, based on the perception module and reorientation methods, we propose a task planner for shoe pair packing in any initial state to provide an optimal packing strategy. Real-world experiments were conducted to verify the robustness of the reorientation methods and the effectiveness of the packing strategy for various types of shoes. In this study, we highlight the potential of semantic keypoint representation methods, introduce new perspectives on the reorientation of 3D deformable objects and multi-object manipulation, and provide a reference for paired object packing.