LLM-Handover:Exploiting LLMs for Task-Oriented Robot-Human Handovers

📄 arXiv: 2509.24706v1 📥 PDF

作者: Andreea Tulbure, Rene Zurbruegg, Timm Grigat, Marco Hutter

分类: cs.RO

发布日期: 2025-09-29

备注: Accepted to IEEE Robotics and Automation Letters (RA-L)


💡 一句话要点

LLM-Handover:利用大语言模型实现面向任务的人机物体交接

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 人机协作 物体交接 大语言模型 部件分割 上下文感知

📋 核心要点

  1. 现有的人机物体交接方法通常忽略人类在交接后的动作,依赖于限制泛化能力的假设。
  2. LLM-Handover框架结合LLM推理和部件分割,根据任务描述推断相关部件,优化交接后的可用性。
  3. 实验表明,该方法提高了抓取成功率,适应交接后任务约束,并在硬件实验和用户研究中表现出色。

📝 摘要(中文)

为了实现有效的人机协作,本研究提出了一种新颖的框架LLM-Handover,该框架结合了大语言模型(LLM)的推理能力和部件分割技术,从而实现上下文感知的抓取选择和执行。该方法能够根据RGB-D图像和任务描述,推断出相关的物体部件,并选择能够优化交接后可用性的抓取方式。为了支持评估,我们构建了一个包含60个家庭物品的数据集,涵盖12个类别,并对每个物品进行了详细的部件标注。实验结果表明,LLM-Handover提高了部件分割的性能,实现了更高的抓取成功率,并能更好地适应交接后的任务约束。在硬件实验中,针对传统和非传统的交接后任务,该方法在零样本设置下实现了83%的成功率。用户研究表明,LLM-Handover能够实现更直观、上下文感知的交接,86%的参与者更喜欢这种方法。

🔬 方法详解

问题定义:现有的人机物体交接方法主要痛点在于缺乏对交接后人类行为的考虑,通常基于预设的抓取方式,无法根据具体的任务需求进行调整,导致交接效率和用户体验不佳。这种方法的局限性在于难以泛化到不同的任务场景和物体类型。

核心思路:LLM-Handover的核心思路是利用大语言模型(LLM)的强大推理能力,结合物体部件分割信息,实现上下文感知的抓取选择。通过分析任务描述,LLM能够推断出与任务相关的物体部件,并指导机器人选择最合适的抓取方式,从而优化交接后的可用性。

技术框架:LLM-Handover框架主要包含以下几个阶段:1) 输入RGB-D图像和任务描述;2) 使用部件分割算法识别物体部件;3) 利用LLM根据任务描述推理出与任务相关的部件;4) 根据推理结果选择合适的抓取点和抓取姿态;5) 执行抓取动作,将物体交接给人类。

关键创新:该方法最重要的创新点在于将LLM的推理能力引入到人机物体交接任务中,实现了上下文感知的抓取选择。与传统的基于预设规则或学习的抓取方法不同,LLM-Handover能够根据具体的任务需求动态调整抓取策略,从而提高交接的效率和用户体验。

关键设计:LLM-Handover的关键设计包括:1) 使用高质量的部件分割算法,准确识别物体部件;2) 设计合适的LLM提示语,引导LLM推理出与任务相关的部件;3) 定义抓取评估指标,根据部件相关性和抓取稳定性选择最佳抓取点和姿态。具体的LLM选择和提示工程细节可能影响最终性能,但论文中未详细说明。

📊 实验亮点

LLM-Handover在实验中表现出色。在零样本设置下,针对传统和非传统的交接后任务,该方法实现了83%的抓取成功率。用户研究表明,86%的参与者更喜欢LLM-Handover提供的交接方式,认为其更直观、更符合任务需求。此外,该方法还提高了部件分割的性能,为后续的抓取选择提供了更准确的信息。

🎯 应用场景

LLM-Handover具有广泛的应用前景,例如在智能家居中,机器人可以根据用户的指令,以最方便的方式递送物品。在医疗领域,机器人可以辅助医护人员进行手术器械的交接,提高手术效率和安全性。在工业生产中,机器人可以根据工人的操作习惯,以最佳方式递送工具或零部件,提高生产效率。该研究有望推动人机协作技术的发展,实现更加智能、高效、安全的人机交互。

📄 摘要(原文)

Effective human-robot collaboration depends on task-oriented handovers, where robots present objects in ways that support the partners intended use. However, many existing approaches neglect the humans post-handover action, relying on assumptions that limit generalizability. To address this gap, we propose LLM-Handover, a novel framework that integrates large language model (LLM)-based reasoning with part segmentation to enable context-aware grasp selection and execution. Given an RGB-D image and a task description, our system infers relevant object parts and selects grasps that optimize post-handover usability. To support evaluation, we introduce a new dataset of 60 household objects spanning 12 categories, each annotated with detailed part labels. We first demonstrate that our approach improves the performance of the used state-of-the-art part segmentation method, in the context of robot-human handovers. Next, we show that LLM-Handover achieves higher grasp success rates and adapts better to post-handover task constraints. During hardware experiments, we achieve a success rate of 83% in a zero-shot setting over conventional and unconventional post-handover tasks. Finally, our user study underlines that our method enables more intuitive, context-aware handovers, with participants preferring it in 86% of cases.