Evaluating Efficiency and Engagement in Scripted and LLM-Enhanced Human-Robot Interactions

作者: Tim Schreiter, Jens V. Rüppel, Rishi Hazra, Andrey Rudenko, Martin Magnusson, Achim J. Lilienthal

分类: cs.RO, cs.HC

发布日期: 2025-01-21

备注: Accepted as a Late-Breaking Report to the 2025, 20th ACM/IEEE International Conference on Human-Robot Interaction (HRI)

💡 一句话要点

对比脚本式与LLM增强人机交互，评估效率与参与度

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 人机交互 大型语言模型 机器人控制 眼动追踪 任务效率

📋 核心要点

现有的人机交互框架在处理人类不可预测行为和意外环境状态时，缺乏动态适应和恢复交互的能力。
利用大型语言模型（LLM）的推理和上下文保持能力，增强机器人对复杂环境和人类行为的适应性。
实验对比了脚本式和LLM增强的人机交互，发现LLM提升了主观评价，但客观效率与脚本式相当，后者在简单任务中更优。

📝 摘要（中文）

为了实现自然直观的人机交互，人机交互框架结合了人类感知、意图沟通、人机协同导航和协作行为等多种方法。然而，当遇到人类不可预测的行为或环境的意外状态时，这些框架可能缺乏动态识别、适应和恢复交互的能力。大型语言模型（LLM）凭借其先进的推理能力和上下文保持能力，为增强机器人适应性提供了一个有希望的解决方案。然而，这种潜力可能不会直接转化为交互指标的改进。本文考虑了一个与工业机器人进行交互的代表性场景，包括接近、指令和物体操作，并在两种条件下实现：(1) 完全脚本化和 (2) 包括 LLM 增强的响应。我们使用眼动追踪和问卷调查来衡量参与者的任务效率、参与度和机器人感知。结果表明，LLM 条件的主观评分较高，但客观指标表明，脚本化条件的性能相当，尤其是在简单任务中的效率和专注度方面。我们还注意到，在响应延迟和能源消耗方面，脚本化条件可能优于 LLM 增强的响应，尤其是在琐碎和重复的交互中。

🔬 方法详解

问题定义：现有的人机交互系统在面对复杂或未知的环境时，通常依赖于预定义的脚本或规则，缺乏足够的灵活性和适应性。当人类的行为超出预期，或者环境状态发生变化时，机器人难以动态调整行为，导致交互中断或效率降低。因此，如何提高人机交互系统的适应性和鲁棒性是一个关键问题。

核心思路：本文的核心思路是利用大型语言模型（LLM）的强大推理和上下文理解能力，增强机器人对复杂环境和人类意图的理解，从而实现更自然和灵活的人机交互。通过将LLM集成到人机交互系统中，机器人可以更好地理解人类的指令，并根据环境的变化动态调整自己的行为。

技术框架：该研究对比了两种人机交互系统：(1) 完全脚本化的系统，其中机器人的行为完全由预定义的脚本控制；(2) LLM增强的系统，其中机器人的部分行为由LLM生成。两种系统都涉及接近、指令和物体操作等任务。通过眼动追踪和问卷调查，研究人员评估了参与者的任务效率、参与度和对机器人的感知。

关键创新：该研究的关键创新在于对比了脚本式和LLM增强的人机交互系统在实际应用中的性能。虽然LLM在自然语言处理方面表现出色，但将其直接应用于人机交互并不一定能带来整体性能的提升。该研究揭示了在特定场景下，脚本式系统在效率和响应延迟方面可能优于LLM增强的系统。

关键设计：实验设计包括两种交互模式：完全脚本化和LLM增强。在LLM增强模式中，LLM负责生成部分响应，例如对人类指令的确认或对环境变化的解释。研究人员使用眼动追踪技术来测量参与者的注视点和注视时间，从而评估其专注度和任务效率。问卷调查用于收集参与者对交互体验的主观评价，包括参与度、信任度和舒适度。

🖼️ 关键图片

📊 实验亮点

实验结果表明，LLM增强的人机交互系统在主观评价方面优于脚本式系统，参与者认为LLM增强的系统更自然和易于理解。然而，在客观指标方面，脚本式系统在简单任务中的效率和专注度方面表现更好。尤其是在响应延迟和能源消耗方面，脚本式系统可能更具优势。这表明在特定场景下，简单的脚本式交互仍然是一种有效的解决方案。

🎯 应用场景

该研究成果可应用于工业机器人、服务机器人等领域，提升机器人在复杂环境下的适应性和人机交互的自然性。通过合理选择脚本式或LLM增强的交互方式，可以优化机器人的性能，提高工作效率和用户满意度。未来的研究可以探索更有效的LLM集成方法，以及如何根据任务的复杂度和环境的变化动态切换交互模式。

📄 摘要（原文）

To achieve natural and intuitive interaction with people, HRI frameworks combine a wide array of methods for human perception, intention communication, human-aware navigation and collaborative action. In practice, when encountering unpredictable behavior of people or unexpected states of the environment, these frameworks may lack the ability to dynamically recognize such states, adapt and recover to resume the interaction. Large Language Models (LLMs), owing to their advanced reasoning capabilities and context retention, present a promising solution for enhancing robot adaptability. This potential, however, may not directly translate to improved interaction metrics. This paper considers a representative interaction with an industrial robot involving approach, instruction, and object manipulation, implemented in two conditions: (1) fully scripted and (2) including LLM-enhanced responses. We use gaze tracking and questionnaires to measure the participants' task efficiency, engagement, and robot perception. The results indicate higher subjective ratings for the LLM condition, but objective metrics show that the scripted condition performs comparably, particularly in efficiency and focus during simple tasks. We also note that the scripted condition may have an edge over LLM-enhanced responses in terms of response latency and energy consumption, especially for trivial and repetitive interactions.

Evaluating Efficiency and Engagement in Scripted and LLM-Enhanced Human-Robot Interactions

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理