Task-Oriented Robot-Human Handovers on Legged Manipulators

作者: Andreea Tulbure, Carmen Scheidemann, Elias Steiner, Marco Hutter

分类: cs.RO, cs.HC

发布日期: 2026-02-05

备注: Accepted to 21st ACM/IEEE International Conference on Human-Robot Interaction (HRI) 2026

💡 一句话要点

AFT-Handover：基于LLM和纹理迁移的腿式机器人零样本任务导向物体递送

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 人机协作 任务导向递送 大型语言模型 零样本学习 纹理迁移

📋 核心要点

现有任务导向递送方法依赖于物体或任务特定的可供性，泛化能力有限，难以应对新场景。
AFT-Handover框架利用大型语言模型进行可供性推理，并结合纹理迁移，实现零样本的任务导向递送。
实验表明，AFT-Handover在递送成功率和泛化能力上优于基线方法，并减少了人类的重新抓取动作。

📝 摘要（中文）

本文提出了一种名为AFT-Handover的框架，用于实现任务导向的机器人-人类物体递送（TOH）。该框架结合了大型语言模型（LLM）驱动的认知推理和高效的基于纹理的认知迁移，以实现零样本、可泛化的TOH。对于新的物体-任务对，该方法从数据库中检索一个代理示例，通过LLM推理建立零件级别的对应关系，并纹理化认知信息以进行基于特征的点云迁移。在不同的任务-物体对上评估AFT-Handover，结果表明，与基线方法相比，该方法提高了递送成功率，并具有更强的泛化能力。在一项对比用户研究中，我们的框架明显优于当前最先进的方法，有效地减少了人类在使用工具前的重新抓取。最后，我们在腿式机械臂上演示了TOH，突出了我们的框架在现实世界机器人-人类递送中的潜力。

🔬 方法详解

问题定义：论文旨在解决任务导向的机器人-人类物体递送（TOH）问题，即机器人需要以一种支持人类后续使用的方式递送物体。现有方法通常依赖于物体或任务特定的可供性信息，这限制了它们在新场景中的泛化能力。当面对未知的物体和任务组合时，这些方法往往表现不佳，需要人工干预或重新训练。

核心思路：论文的核心思路是利用大型语言模型（LLM）的强大推理能力，结合基于纹理的认知迁移，实现零样本的TOH。通过LLM，系统可以理解物体和任务之间的关系，并推断出合适的递送姿态。然后，利用纹理迁移技术，将从已知物体上学习到的认知信息迁移到新的物体上，从而实现快速适应。

技术框架：AFT-Handover框架包含以下几个主要模块：1) 代理示例检索：对于给定的新物体-任务对，从数据库中检索一个相似的代理示例。2) LLM推理：利用LLM建立新物体和代理示例之间的零件级别对应关系，并推断出合适的递送姿态。3) 纹理化认知：将代理示例的认知信息（例如，抓握点、施力方向）纹理化，并映射到其点云上。4) 认知迁移：基于特征的点云配准，将纹理化的认知信息从代理示例迁移到新物体上。5) 递送执行：机器人根据迁移后的认知信息，执行递送动作。

关键创新：该方法最重要的创新点在于将LLM的推理能力与纹理迁移技术相结合，实现了零样本的TOH。与现有方法相比，AFT-Handover不需要针对每个新的物体-任务对进行训练或人工设计，具有更强的泛化能力和适应性。此外，利用纹理迁移技术，可以高效地将认知信息从已知物体迁移到新物体上，避免了从头开始学习的成本。

关键设计：在LLM推理方面，论文使用了提示工程（Prompt Engineering）来引导LLM生成更准确的零件级别对应关系。在纹理迁移方面，论文使用了基于特征的点云配准算法，以实现更精确的认知信息迁移。具体的损失函数和网络结构细节在论文中未详细说明，可能使用了现有的点云配准和特征提取方法。

📊 实验亮点

实验结果表明，AFT-Handover在不同的任务-物体对上，递送成功率显著高于基线方法。用户研究表明，与当前最先进的方法相比，用户更喜欢AFT-Handover，因为它能有效地减少人类在使用工具前的重新抓取动作。具体而言，AFT-Handover在用户偏好度上优于基线方法，并且在腿式机械臂上的演示验证了该框架在实际场景中的可行性。

🎯 应用场景

该研究成果可广泛应用于人机协作的各个领域，例如：在家庭服务机器人中，机器人可以根据用户的需求，以最方便的方式递送工具或物品；在工业生产中，机器人可以根据工人的操作习惯，递送零件或工具，提高生产效率；在医疗康复领域，机器人可以辅助医护人员进行手术或康复训练，减轻他们的工作负担。该研究有望推动人机协作技术的发展，使机器人能够更好地服务于人类。

📄 摘要（原文）

Task-oriented handovers (TOH) are fundamental to effective human-robot collaboration, requiring robots to present objects in a way that supports the human's intended post-handover use. Existing approaches are typically based on object- or task-specific affordances, but their ability to generalize to novel scenarios is limited. To address this gap, we present AFT-Handover, a framework that integrates large language model (LLM)-driven affordance reasoning with efficient texture-based affordance transfer to achieve zero-shot, generalizable TOH. Given a novel object-task pair, the method retrieves a proxy exemplar from a database, establishes part-level correspondences via LLM reasoning, and texturizes affordances for feature-based point cloud transfer. We evaluate AFT-Handover across diverse task-object pairs, showing improved handover success rates and stronger generalization compared to baselines. In a comparative user study, our framework is significantly preferred over the current state-of-the-art, effectively reducing human regrasping before tool use. Finally, we demonstrate TOH on legged manipulators, highlighting the potential of our framework for real-world robot-human handovers.

Task-Oriented Robot-Human Handovers on Legged Manipulators

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理