Gaze-supported Large Language Model Framework for Bi-directional Human-Robot Interaction
作者: Jens V. Rüppel, Andrey Rudenko, Tim Schreiter, Martin Magnusson, Achim J. Lilienthal
分类: cs.RO, cs.HC
发布日期: 2025-07-21
备注: This paper has been accepted to the 34th IEEE International Conference on Robot and Human Interactive Communication (RO-MAN), which will be held in Eindhoven, Netherlands on August 25-29, 2025. Copyright 2025 IEEE. Personal use of this material is permitted. Permission from IEEE must be obtained for all other uses
💡 一句话要点
提出基于眼动追踪的大语言模型人机交互框架,提升协作任务中的用户支持。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 人机交互 大语言模型 眼动追踪 协作机器人 多模态感知
📋 核心要点
- 现有HRI系统在协作任务中缺乏双向、多模态和上下文感知的用户支持,限制了其在复杂环境中的应用。
- 论文提出一种基于眼动追踪和大语言模型的人机交互框架,旨在提升机器人对用户意图的理解和任务协作能力。
- 实验结果表明,该框架在适应性和用户参与度方面优于传统脚本流程,但在某些情况下可能产生冗余输出。
📝 摘要(中文)
大语言模型(LLMs)的快速发展为辅助机器人灵活、通用、知识驱动的人机交互(HRI)系统创造了令人兴奋的潜力。现有的HRI系统在解释和遵循用户指令、动作生成和机器人任务解决方面取得了很大进展。另一方面,在协作任务中对用户进行双向、多模态和上下文感知的支持仍然是一个开放的挑战。本文提出了一种基于眼动追踪和语音信息的辅助机器人界面,该界面能够从多个视觉输入感知工作环境,并在任务中支持动态用户。我们的系统被设计成模块化的和可转移的,以适应不同的任务和机器人,并且能够实时使用基于语言的交互状态表示和快速的板载感知模块。其开发得到了多个公共传播活动的支持,为提高鲁棒性和用户体验做出了重要考虑。此外,在两项实验室研究中,我们将我们系统的性能和用户评分与传统的脚本HRI流程进行了比较。我们的研究结果表明,基于LLM的方法增强了适应性,并略微提高了用户参与度和任务执行指标,但可能会产生冗余输出,而脚本流程非常适合更直接的任务。
🔬 方法详解
问题定义:现有的人机交互系统在协作任务中,难以提供双向、多模态和上下文感知的支持。尤其是在动态变化的环境中,机器人难以准确理解用户的意图,从而影响协作效率和用户体验。传统的脚本式HRI流程虽然在特定任务上表现良好,但缺乏灵活性和泛化能力。
核心思路:论文的核心思路是将眼动追踪技术与大语言模型相结合,构建一个能够感知用户视线焦点和理解用户语音指令的交互系统。通过眼动追踪,机器人可以推断用户关注的对象和潜在意图;通过大语言模型,机器人可以理解用户的指令,并生成相应的动作和反馈。这种结合使得机器人能够更好地理解用户的需求,并提供更自然、更有效的协作支持。
技术框架:该系统的整体架构包含以下几个主要模块:1) 多模态感知模块:负责从多个视觉输入(如摄像头)和语音输入中提取信息,并利用眼动追踪技术确定用户的视线焦点。2) 交互状态表示模块:将感知到的信息(包括用户指令、视线焦点、环境信息等)转化为基于语言的交互状态表示,作为大语言模型的输入。3) 大语言模型模块:根据交互状态表示,生成机器人的动作和反馈。4) 机器人控制模块:将大语言模型生成的动作转化为机器人的具体控制指令。
关键创新:该论文最重要的技术创新点在于将眼动追踪技术与大语言模型相结合,用于人机交互。这种结合使得机器人能够更准确地理解用户的意图,并提供更自然、更有效的协作支持。此外,该系统还采用了模块化的设计,使其易于移植和扩展,可以适应不同的任务和机器人平台。
关键设计:论文中没有详细描述关键的参数设置、损失函数、网络结构等技术细节。但是,可以推断,眼动追踪模块可能需要进行校准和优化,以提高视线跟踪的准确性。大语言模型可能需要进行微调,以适应特定的人机交互场景。此外,还需要设计合适的提示工程(Prompt Engineering),以引导大语言模型生成合适的动作和反馈。
🖼️ 关键图片
📊 实验亮点
实验结果表明,基于LLM的方法在适应性和用户参与度方面优于传统的脚本HRI流程。具体来说,LLM方法能够更好地适应不同的任务和用户需求,并提供更个性化的交互体验。用户评分显示,LLM方法在用户参与度和任务执行指标上略有提升。然而,LLM方法也可能产生冗余输出,这需要在未来的研究中加以改进。
🎯 应用场景
该研究成果可应用于各种人机协作场景,例如辅助机器人、智能家居、工业自动化等。在辅助机器人领域,该系统可以帮助残疾人或老年人完成日常任务。在智能家居领域,该系统可以实现更自然、更智能的家居控制。在工业自动化领域,该系统可以提高生产效率和安全性。未来,该技术有望进一步发展,实现更高级别的人机协作。
📄 摘要(原文)
The rapid development of Large Language Models (LLMs) creates an exciting potential for flexible, general knowledge-driven Human-Robot Interaction (HRI) systems for assistive robots. Existing HRI systems demonstrate great progress in interpreting and following user instructions, action generation, and robot task solving. On the other hand, bi-directional, multi-modal, and context-aware support of the user in collaborative tasks still remains an open challenge. In this paper, we present a gaze- and speech-informed interface to the assistive robot, which is able to perceive the working environment from multiple vision inputs and support the dynamic user in their tasks. Our system is designed to be modular and transferable to adapt to diverse tasks and robots, and it is capable of real-time use of language-based interaction state representation and fast on board perception modules. Its development was supported by multiple public dissemination events, contributing important considerations for improved robustness and user experience. Furthermore, in two lab studies, we compare the performance and user ratings of our system with those of a traditional scripted HRI pipeline. Our findings indicate that an LLM-based approach enhances adaptability and marginally improves user engagement and task execution metrics but may produce redundant output, while a scripted pipeline is well suited for more straightforward tasks.