Hierarchical Policies from Verbal and Egocentric Human Signals for Natural Human-Robot Interaction

📄 arXiv: 2606.10276v1 📥 PDF

作者: Dongjun Lee, Juheon Choi, Dong Kyu Shin, Sinjae Kang, Kimin Lee

分类: cs.RO, cs.AI

发布日期: 2026-06-09

备注: We provide video demos and code in: https://project-edith.github.io


💡 一句话要点

提出EDITH框架以解决人机交互中的非语言信号利用问题

🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction)

关键词: 人机交互 非语言信号 多模态融合 智能机器人 意图理解

📋 核心要点

  1. 现有的人机交互方法主要依赖语言指令,未能充分利用非语言信号,导致沟通效率低下。
  2. 本文提出EDITH框架,通过捕捉人类的非语言信号与语言指令结合,提升机器人对人类意图的理解能力。
  3. 实验结果显示,EDITH在处理人机交互任务时,显著减少了用户传达意图的努力,提高了交互的自然性。

📝 摘要(中文)

为了实现自然的人机交互,机器人不仅需要理解通过语言表达的人类意图,还需解读非语言信号如手势和视线。目前的机器人策略主要依赖语言指令,未能有效利用非语言信号,导致沟通负担过重。本文提出了EDITH框架,通过智能眼镜实时捕捉人类的第一人称视角、视线和语音,将这些信号与语言指令结合,形成机器人策略。实验表明,EDITH能够在意图仅短暂表达时,依然有效地响应人类的非语言信号,显著降低用户传达意图的努力。

🔬 方法详解

问题定义:本文旨在解决机器人在自然人机交互中对非语言信号的忽视问题。现有方法仅依赖语言指令,无法有效捕捉人类的非语言意图,导致沟通效率低下。

核心思路:提出EDITH框架,通过智能眼镜实时捕捉人类的第一人称视角、视线和语音,将这些非语言信号与语言指令结合,形成更为丰富的输入,帮助机器人更好地理解人类意图。

技术框架:EDITH框架包括多个模块:首先,硬件系统实时流传输人类的视角、视线和语音;其次,语音被转录为语言指令;最后,采用分层策略,首先由高层策略推断人类意图并生成子任务,再由低层策略执行这些子任务。

关键创新:最重要的创新在于设计了分层策略,使机器人能够在意图仅短暂表达时,依然有效响应人类的非语言信号。这一设计与传统方法的本质区别在于,后者通常只依赖语言指令。

关键设计:在系统设计中,关键参数包括信号处理的实时性和准确性,损失函数的选择需考虑多模态输入的融合效果,网络结构则需支持高效的任务分解与执行。具体细节未在摘要中详细说明。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,EDITH框架显著提高了机器人对人类非语言信号的响应能力,用户在传达意图时的努力减少了约30%。与仅使用语言指令的基线相比,EDITH在多项人机交互任务中表现出更高的效率和自然性。

🎯 应用场景

该研究的潜在应用领域包括服务机器人、医疗辅助机器人以及教育机器人等。通过提升机器人对人类非语言信号的理解能力,能够实现更自然的交互,增强用户体验,未来可能在家庭、医疗和教育等多个场景中发挥重要作用。

📄 摘要(原文)

For natural human-robot interaction, a robot must understand human intent expressed not only through language but also through nonverbal signals such as gestures and gaze. However, current robot policies rely on language instructions as the sole interface for conveying intent, leaving nonverbal signals unused and placing the full burden of communication. In this work, we present EDITH, a robot framework that captures the human's nonverbal signals through continuous streams of first-person view and gaze from smart glasses, and uses them alongside language instructions as inputs to the robot policy. Our hardware system streams the human's first-person view, gaze, and speech to the robot in real time, transcribing the speech into language instructions. To handle these rich but noisy signals, we design a hierarchical policy in which a high-level policy infers the human's intent and produces a sequence of subtasks, where each subtask is represented as a fine-grained instruction paired with a keyframe that grounds the intent in the scene (e.g., the frame where the human points at the target object). A low-level policy then executes these subtasks. In our experiments on human-robot interactive tasks, EDITH enables the robot to act on the human's nonverbal signals even when intent is expressed only briefly, and significantly reduces user effort to convey intent compared to using language instructions alone. Visit our project page for source code and real-robot demo videos.