Task-Oriented Robot-Human Handovers on Legged Manipulators

📄 arXiv: 2602.05760v1 📥 PDF

作者: Andreea Tulbure, Carmen Scheidemann, Elias Steiner, Marco Hutter

分类: cs.RO, cs.HC

发布日期: 2026-02-05

备注: Accepted to 21st ACM/IEEE International Conference on Human-Robot Interaction (HRI) 2026


💡 一句话要点

AFT-Handover:基于LLM和纹理迁移的腿式机器人零样本任务导向物体递送

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 人机协作 任务导向递送 大型语言模型 零样本学习 纹理迁移

📋 核心要点

  1. 现有任务导向递送方法依赖于物体或任务特定的可供性,泛化能力有限,难以应对新场景。
  2. AFT-Handover框架利用大型语言模型进行可供性推理,并结合纹理迁移,实现零样本的任务导向递送。
  3. 实验表明,AFT-Handover在递送成功率和泛化能力上优于基线方法,并减少了人类的重新抓取动作。

📝 摘要(中文)

本文提出了一种名为AFT-Handover的框架,用于实现任务导向的机器人-人类物体递送(TOH)。该框架结合了大型语言模型(LLM)驱动的认知推理和高效的基于纹理的认知迁移,以实现零样本、可泛化的TOH。对于新的物体-任务对,该方法从数据库中检索一个代理示例,通过LLM推理建立零件级别的对应关系,并纹理化认知信息以进行基于特征的点云迁移。在不同的任务-物体对上评估AFT-Handover,结果表明,与基线方法相比,该方法提高了递送成功率,并具有更强的泛化能力。在一项对比用户研究中,我们的框架明显优于当前最先进的方法,有效地减少了人类在使用工具前的重新抓取。最后,我们在腿式机械臂上演示了TOH,突出了我们的框架在现实世界机器人-人类递送中的潜力。

🔬 方法详解

问题定义:论文旨在解决任务导向的机器人-人类物体递送(TOH)问题,即机器人需要以一种支持人类后续使用的方式递送物体。现有方法通常依赖于物体或任务特定的可供性信息,这限制了它们在新场景中的泛化能力。当面对未知的物体和任务组合时,这些方法往往表现不佳,需要人工干预或重新训练。

核心思路:论文的核心思路是利用大型语言模型(LLM)的强大推理能力,结合基于纹理的认知迁移,实现零样本的TOH。通过LLM,系统可以理解物体和任务之间的关系,并推断出合适的递送姿态。然后,利用纹理迁移技术,将从已知物体上学习到的认知信息迁移到新的物体上,从而实现快速适应。

技术框架:AFT-Handover框架包含以下几个主要模块:1) 代理示例检索:对于给定的新物体-任务对,从数据库中检索一个相似的代理示例。2) LLM推理:利用LLM建立新物体和代理示例之间的零件级别对应关系,并推断出合适的递送姿态。3) 纹理化认知:将代理示例的认知信息(例如,抓握点、施力方向)纹理化,并映射到其点云上。4) 认知迁移:基于特征的点云配准,将纹理化的认知信息从代理示例迁移到新物体上。5) 递送执行:机器人根据迁移后的认知信息,执行递送动作。

关键创新:该方法最重要的创新点在于将LLM的推理能力与纹理迁移技术相结合,实现了零样本的TOH。与现有方法相比,AFT-Handover不需要针对每个新的物体-任务对进行训练或人工设计,具有更强的泛化能力和适应性。此外,利用纹理迁移技术,可以高效地将认知信息从已知物体迁移到新物体上,避免了从头开始学习的成本。

关键设计:在LLM推理方面,论文使用了提示工程(Prompt Engineering)来引导LLM生成更准确的零件级别对应关系。在纹理迁移方面,论文使用了基于特征的点云配准算法,以实现更精确的认知信息迁移。具体的损失函数和网络结构细节在论文中未详细说明,可能使用了现有的点云配准和特征提取方法。

📊 实验亮点

实验结果表明,AFT-Handover在不同的任务-物体对上,递送成功率显著高于基线方法。用户研究表明,与当前最先进的方法相比,用户更喜欢AFT-Handover,因为它能有效地减少人类在使用工具前的重新抓取动作。具体而言,AFT-Handover在用户偏好度上优于基线方法,并且在腿式机械臂上的演示验证了该框架在实际场景中的可行性。

🎯 应用场景

该研究成果可广泛应用于人机协作的各个领域,例如:在家庭服务机器人中,机器人可以根据用户的需求,以最方便的方式递送工具或物品;在工业生产中,机器人可以根据工人的操作习惯,递送零件或工具,提高生产效率;在医疗康复领域,机器人可以辅助医护人员进行手术或康复训练,减轻他们的工作负担。该研究有望推动人机协作技术的发展,使机器人能够更好地服务于人类。

📄 摘要(原文)

Task-oriented handovers (TOH) are fundamental to effective human-robot collaboration, requiring robots to present objects in a way that supports the human's intended post-handover use. Existing approaches are typically based on object- or task-specific affordances, but their ability to generalize to novel scenarios is limited. To address this gap, we present AFT-Handover, a framework that integrates large language model (LLM)-driven affordance reasoning with efficient texture-based affordance transfer to achieve zero-shot, generalizable TOH. Given a novel object-task pair, the method retrieves a proxy exemplar from a database, establishes part-level correspondences via LLM reasoning, and texturizes affordances for feature-based point cloud transfer. We evaluate AFT-Handover across diverse task-object pairs, showing improved handover success rates and stronger generalization compared to baselines. In a comparative user study, our framework is significantly preferred over the current state-of-the-art, effectively reducing human regrasping before tool use. Finally, we demonstrate TOH on legged manipulators, highlighting the potential of our framework for real-world robot-human handovers.