Learning to Pick: A Visuomotor Policy for Clustered Strawberry Picking

📄 arXiv: 2509.14530v1 📥 PDF

作者: Zhenghao Fei, Wenwu Lu, Linsheng Hou, Chen Peng

分类: cs.RO

发布日期: 2025-09-18


💡 一句话要点

提出基于模仿学习的草莓采摘策略,解决遮挡环境下机器人采摘难题

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 机器人采摘 模仿学习 视觉运动策略 遮挡处理 农业机器人

📋 核心要点

  1. 现有机器人采摘系统难以应对草莓生长环境中的遮挡问题,导致采摘效率低下。
  2. 论文提出一种基于模仿学习的草莓采摘策略,通过学习人类操作,实现精细的视觉运动控制。
  3. 实验表明,该方法在各种遮挡场景下均优于直接应用ACT的方法,提升了采摘性能。

📝 摘要(中文)

草莓自然生长成簇,与叶子、茎和其他果实交织在一起,经常导致遮挡。这种固有的生长习性给机器人采摘带来了重大挑战,因为传统的感知-规划-控制系统难以在杂乱的环境中触及果实。有效采摘被遮挡的草莓需要灵巧的操作,以小心地绕过或轻轻移动周围的柔软物体,并精确地接近位于萼片上方茎部的理想采摘点。为了应对这一挑战,我们引入了一种从人类演示中学习的草莓采摘机器人系统。我们的系统采用了一个4自由度SCARA机械臂,并配有人机遥操作界面,用于高效的数据收集,并利用端姿辅助动作分块Transformer(ACT)来开发精细的视觉运动采摘策略。在各种遮挡场景下的实验表明,我们改进的方法明显优于ACT的直接实现,突显了其在遮挡草莓采摘中实际应用的潜力。

🔬 方法详解

问题定义:论文旨在解决复杂遮挡环境下机器人草莓采摘的问题。现有方法,如传统的感知-规划-控制系统,难以有效处理草莓簇中叶子、茎和其他果实造成的遮挡,导致机器人无法准确到达采摘点,影响采摘效率和成功率。

核心思路:论文的核心思路是利用模仿学习,让机器人通过学习人类的采摘演示,直接从视觉输入学习到运动控制策略。这种端到端的方法避免了复杂的环境建模和规划过程,能够更好地适应草莓生长环境中的不确定性和复杂性。

技术框架:该系统主要包含三个部分:1) 数据采集:通过人机遥操作界面,收集人类采摘草莓的演示数据。2) 策略学习:使用端姿辅助动作分块Transformer(ACT)学习视觉运动采摘策略。3) 机器人执行:将学习到的策略部署到4自由度SCARA机械臂上,实现自动草莓采摘。

关键创新:论文的关键创新在于使用了端姿辅助的动作分块Transformer(ACT)来学习采摘策略。传统的ACT可能难以处理精细的采摘动作,而端姿辅助可以提供更明确的目标导向,帮助模型学习更准确的运动控制。此外,针对草莓采摘任务对ACT进行了改进,使其更适应于实际应用。

关键设计:论文使用4自由度SCARA机械臂,并设计了人机遥操作界面方便数据采集。在ACT模型中,使用了端姿信息作为辅助输入,并可能对Transformer的结构或训练方式进行了调整,以提高采摘精度和鲁棒性。具体的损失函数和网络结构细节需要在论文中进一步查找。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在各种遮挡场景下均优于直接应用ACT的方法。具体的性能数据(如采摘成功率、采摘时间等)需要在论文中查找。该研究验证了模仿学习在解决复杂遮挡环境下机器人采摘问题的有效性,为农业机器人领域提供了新的思路。

🎯 应用场景

该研究成果可应用于农业机器人领域,实现自动化水果采摘,提高采摘效率,降低人工成本。该方法不仅适用于草莓采摘,还可以扩展到其他易受遮挡影响的农作物采摘,例如葡萄、蓝莓等。此外,该技术还可以应用于其他需要精细操作的机器人任务,如医疗手术、精密装配等。

📄 摘要(原文)

Strawberries naturally grow in clusters, interwoven with leaves, stems, and other fruits, which frequently leads to occlusion. This inherent growth habit presents a significant challenge for robotic picking, as traditional percept-plan-control systems struggle to reach fruits amid the clutter. Effectively picking an occluded strawberry demands dexterous manipulation to carefully bypass or gently move the surrounding soft objects and precisely access the ideal picking point located at the stem just above the calyx. To address this challenge, we introduce a strawberry-picking robotic system that learns from human demonstrations. Our system features a 4-DoF SCARA arm paired with a human teleoperation interface for efficient data collection and leverages an End Pose Assisted Action Chunking Transformer (ACT) to develop a fine-grained visuomotor picking policy. Experiments under various occlusion scenarios demonstrate that our modified approach significantly outperforms the direct implementation of ACT, underscoring its potential for practical application in occluded strawberry picking.