NVP-HRI: Zero Shot Natural Voice and Posture-based Human-Robot Interaction via Large Language Model

📄 arXiv: 2503.09335v1 📥 PDF

作者: Yuzhi Lai, Shenghai Yuan, Youssef Nassar, Mingyu Fan, Thomas Weber, Matthias Rätsch

分类: cs.RO, cs.AI

发布日期: 2025-03-12

备注: This work has been accepted for publication in ESWA @ 2025 Elsevier. Personal use of this material is permitted. Permission from Elsevier must be obtained for all other uses, including reprinting/redistribution, creating new works, or reuse of any copyrighted components of this work in other media

DOI: 10.1016/j.eswa.2024.126360

🔗 代码/项目: GITHUB


💡 一句话要点

提出NVP-HRI,利用LLM实现零样本自然语音和姿态的人机交互

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 人机交互 多模态融合 大型语言模型 零样本学习 机器人控制 语音识别 姿态识别

📋 核心要点

  1. 现有HRI系统偏向于训练良好的对象,难以处理新对象,且依赖预定义的手势或语言,对老年人等群体不友好。
  2. NVP-HRI结合语音命令和指示姿势,利用SAM进行对象分割和结构化表示,并集成LLM进行多模态命令处理和轨迹规划。
  3. 实验表明,NVP-HRI在各种真实世界任务中,相比传统手势控制,效率提升高达59.2%。

📝 摘要(中文)

本文提出了一种名为NVP-HRI的直观多模态人机交互范式,该范式结合了语音命令和指示姿势。NVP-HRI利用Segment Anything Model (SAM)分析视觉线索和深度数据,从而实现精确的结构化对象表示。通过预训练的SAM网络,NVP-HRI能够通过零样本预测与新对象交互,即使没有先验知识。NVP-HRI还集成了大型语言模型(LLM)以处理多模态命令,并将其与对象选择和场景分布实时协调,从而实现无碰撞的轨迹解决方案。此外,我们使用必要的控制语法来规范动作序列,以降低LLM产生幻觉的风险。使用通用机器人进行的各种真实世界任务的评估表明,与传统手势控制相比,效率提高了高达59.2%。

🔬 方法详解

问题定义:现有的人机交互系统在处理新物体时存在泛化性不足的问题,并且依赖于预定义的手势或语言指令,这对于老年人等用户来说学习成本较高,难以记忆和使用。因此,需要一种更加自然、直观且能够处理未知物体的人机交互方法。

核心思路:NVP-HRI的核心思路是结合语音命令和指示姿势,利用大型语言模型(LLM)理解用户的意图,并结合视觉信息(通过SAM分割物体)来实现对未知物体的操作。通过这种多模态融合的方式,可以实现更加自然和灵活的人机交互。

技术框架:NVP-HRI的整体框架包括以下几个主要模块:1) 感知模块:利用摄像头和深度传感器获取场景的视觉信息,并使用SAM进行物体分割和结构化表示。2) 语音识别模块:将用户的语音命令转换为文本。3) LLM处理模块:利用LLM理解用户的意图,并生成相应的动作序列。4) 轨迹规划模块:根据LLM生成的动作序列和场景信息,规划出无碰撞的机器人轨迹。5) 机器人控制模块:控制机器人执行规划好的轨迹。

关键创新:NVP-HRI的关键创新在于以下几个方面:1) 零样本物体操作:利用SAM的零样本分割能力,可以处理未知的物体,无需预先训练。2) 多模态融合:结合语音命令和指示姿势,可以更加自然地表达用户的意图。3) LLM集成:利用LLM的强大语言理解能力,可以处理复杂的命令,并生成合理的动作序列。4) 控制语法约束:通过引入控制语法,可以减少LLM产生幻觉的风险,提高系统的可靠性。

关键设计:NVP-HRI的关键设计包括:1) SAM的参数选择:选择合适的SAM模型和参数,以保证分割的准确性和效率。2) LLM的prompt设计:设计合适的prompt,引导LLM生成正确的动作序列。3) 轨迹规划算法:选择合适的轨迹规划算法,以保证轨迹的无碰撞性和平滑性。4) 控制语法的定义:定义一套简洁有效的控制语法,约束LLM的输出。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,NVP-HRI在各种真实世界任务中,相比传统手势控制,效率提升高达59.2%。这一显著的性能提升验证了NVP-HRI在人机交互方面的有效性和优越性。该结果表明,结合语音和姿态的多模态交互方式,以及LLM的强大理解能力,能够显著提高人机交互的效率和自然性。

🎯 应用场景

NVP-HRI具有广泛的应用前景,例如在养老院中,机器人可以根据老人的语音指令和手势,帮助他们取放物品、整理房间等。此外,NVP-HRI还可以应用于智能家居、工业自动化等领域,实现更加智能和便捷的人机交互。未来,该技术有望进一步发展,实现更加复杂和精细的操作。

📄 摘要(原文)

Effective Human-Robot Interaction (HRI) is crucial for future service robots in aging societies. Existing solutions are biased toward only well-trained objects, creating a gap when dealing with new objects. Currently, HRI systems using predefined gestures or language tokens for pretrained objects pose challenges for all individuals, especially elderly ones. These challenges include difficulties in recalling commands, memorizing hand gestures, and learning new names. This paper introduces NVP-HRI, an intuitive multi-modal HRI paradigm that combines voice commands and deictic posture. NVP-HRI utilizes the Segment Anything Model (SAM) to analyze visual cues and depth data, enabling precise structural object representation. Through a pre-trained SAM network, NVP-HRI allows interaction with new objects via zero-shot prediction, even without prior knowledge. NVP-HRI also integrates with a large language model (LLM) for multimodal commands, coordinating them with object selection and scene distribution in real time for collision-free trajectory solutions. We also regulate the action sequence with the essential control syntax to reduce LLM hallucination risks. The evaluation of diverse real-world tasks using a Universal Robot showcased up to 59.2\% efficiency improvement over traditional gesture control, as illustrated in the video https://youtu.be/EbC7al2wiAc. Our code and design will be openly available at https://github.com/laiyuzhi/NVP-HRI.git.