GRITS: A Spillage-Aware Guided Diffusion Policy for Robot Food Scooping Tasks

📄 arXiv: 2510.00573v1 📥 PDF

作者: Yen-Ling Tai, Yi-Ru Yang, Kuan-Ting Yu, Yu-Wei Chao, Yi-Ting Chen

分类: cs.RO

发布日期: 2025-10-01


💡 一句话要点

GRITS:一种用于机器人食物舀取任务的防溢出引导扩散策略

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 机器人 食物舀取 扩散策略 溢出预测 引导学习

📋 核心要点

  1. 现有机器人学习方法在处理动态食物状态时易溢出,可靠性低,是机器人食物舀取任务的挑战。
  2. GRITS利用引导扩散策略,通过溢出预测器引导采样过程,最小化食物舀取过程中的溢出。
  3. GRITS在真实机器人平台上验证,在未见食物类别上实现了82%的任务成功率和4%的溢出率。

📝 摘要(中文)

机器人食物舀取是食品制备和服务机器人的关键操作技能。然而,现有的机器人学习算法,特别是示教学习方法,仍然难以处理多样化和动态的食物状态,这通常会导致溢出和降低可靠性。本文介绍了一种用于机器人食物舀取任务的防溢出引导扩散策略GRITS。该框架利用引导扩散策略来最小化舀取过程中的食物溢出,并确保食物从初始位置可靠地转移到目标位置。具体来说,我们设计了一个溢出预测器,用于估计给定当前观察和动作轨迹的溢出概率。该预测器在模拟数据集上进行训练,该数据集包含食物溢出场景,由四种基本形状(球体、立方体、圆锥体和圆柱体)构成,并具有不同的物理属性,如质量、摩擦力和粒度。在推理时,该预测器作为可微的引导信号,引导扩散采样过程朝着更安全的轨迹发展,同时保持任务成功。我们在真实的机器人食物舀取平台上验证了GRITS。GRITS在六个食物类别上进行训练,并在十个具有不同形状和数量的未见类别上进行评估。GRITS实现了82%的任务成功率和4%的溢出率,与没有引导的基线相比,溢出率降低了40%以上,从而证明了其有效性。

🔬 方法详解

问题定义:论文旨在解决机器人食物舀取任务中,由于食物状态多样性和动态性导致的溢出问题。现有方法难以适应不同食物的物理特性,导致舀取过程中食物容易掉落,影响任务的成功率和可靠性。

核心思路:核心思路是利用引导扩散策略,在生成舀取动作轨迹时,同时考虑任务成功和溢出风险。通过训练一个溢出预测器,预测给定状态和动作序列的溢出概率,并将该概率作为引导信号,引导扩散模型的采样过程,使其生成更安全的轨迹。

技术框架:GRITS框架包含以下主要模块:1) 扩散策略网络:用于生成候选的舀取动作轨迹;2) 溢出预测器:用于预测给定状态和动作序列的溢出概率;3) 引导模块:利用溢出预测器的输出,引导扩散策略网络的采样过程,生成更安全的轨迹。训练阶段,扩散策略网络通过模仿学习进行初始化,溢出预测器在模拟数据上进行训练。推理阶段,扩散策略网络生成多个候选轨迹,溢出预测器评估每个轨迹的溢出风险,引导模块选择风险最低的轨迹执行。

关键创新:关键创新在于将溢出预测器与扩散策略相结合,实现了一种防溢出的引导扩散策略。与传统的示教学习方法相比,GRITS能够显式地考虑溢出风险,并生成更安全的动作轨迹。与没有引导的扩散策略相比,GRITS能够显著降低溢出率,同时保持较高的任务成功率。

关键设计:溢出预测器是一个神经网络,输入是当前的状态(例如,食物的形状、位置、数量)和动作序列,输出是溢出概率。损失函数采用二元交叉熵损失,用于区分溢出和非溢出场景。扩散策略网络采用U-Net结构,输入是当前的状态和目标位置,输出是动作序列的噪声。引导模块通过调整扩散过程中的噪声,使得生成的轨迹朝着溢出概率较低的方向移动。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

GRITS在真实机器人平台上进行了验证,在六个食物类别上进行训练,并在十个未见类别上进行评估。实验结果表明,GRITS实现了82%的任务成功率和4%的溢出率,与没有引导的基线相比,溢出率降低了40%以上,证明了其在降低食物溢出方面的有效性。该结果表明GRITS具有良好的泛化能力,能够适应不同形状和数量的食物。

🎯 应用场景

GRITS技术可应用于各种食品制备和服务机器人,例如餐厅的自动配餐机器人、养老院的助老餐饮机器人等。通过降低食物溢出率,提高任务成功率和可靠性,可以显著提升机器人的实用性和用户体验,并减少食物浪费。未来,该技术还可以扩展到其他需要精确操作的机器人任务,例如液体转移、物料搬运等。

📄 摘要(原文)

Robotic food scooping is a critical manipulation skill for food preparation and service robots. However, existing robot learning algorithms, especially learn-from-demonstration methods, still struggle to handle diverse and dynamic food states, which often results in spillage and reduced reliability. In this work, we introduce GRITS: A Spillage-Aware Guided Diffusion Policy for Robot Food Scooping Tasks. This framework leverages guided diffusion policy to minimize food spillage during scooping and to ensure reliable transfer of food items from the initial to the target location. Specifically, we design a spillage predictor that estimates the probability of spillage given current observation and action rollout. The predictor is trained on a simulated dataset with food spillage scenarios, constructed from four primitive shapes (spheres, cubes, cones, and cylinders) with varied physical properties such as mass, friction, and particle size. At inference time, the predictor serves as a differentiable guidance signal, steering the diffusion sampling process toward safer trajectories while preserving task success. We validate GRITS on a real-world robotic food scooping platform. GRITS is trained on six food categories and evaluated on ten unseen categories with different shapes and quantities. GRITS achieves an 82% task success rate and a 4% spillage rate, reducing spillage by over 40% compared to baselines without guidance, thereby demonstrating its effectiveness.