Explainable OOHRI: Communicating Robot Capabilities and Limitations as Augmented Reality Affordances

📄 arXiv: 2601.14587v1 📥 PDF

作者: Lauren W. Wang, Mohamed Kari, Parastoo Abtahi

分类: cs.HC, cs.RO

发布日期: 2026-01-21

期刊: Proceedings of the 21st ACM/IEEE International Conference on Human-Robot Interaction (HRI 2026)

DOI: 10.1145/3757279.3785569


💡 一句话要点

提出X-OOHRI,通过AR界面提升人机交互中机器人能力的可解释性。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 人机交互 增强现实 机器人能力解释 面向对象 视觉-语言模型

📋 核心要点

  1. 现有机器人交互缺乏透明度,用户难以理解机器人的能力和局限性,阻碍了有效的人机协作。
  2. X-OOHRI通过AR界面,利用视觉线索和解释,将机器人能力和约束以面向对象的方式呈现给用户。
  3. 用户研究表明,X-OOHRI能有效提升用户对机器人能力的理解,并促进混合主动问题解决。

📝 摘要(中文)

为了解决机器人作为黑盒,用户难以了解其能力和局限性的问题,本文提出了一种可解释的面向对象的人机交互(X-OOHRI)系统。该系统利用增强现实(AR)界面,通过视觉符号、径向菜单、颜色编码和解释标签来传达机器人的动作可能性和约束。X-OOHRI使用视觉-语言模型将对象属性和机器人限制编码到面向对象的结构中,从而实现即时生成解释和直接操作模拟环境中空间对齐的虚拟孪生体。该系统与物理机器人集成,展示了从低级抓取放置到高级指令的各种用例。用户研究表明,参与者能够有效地发出面向对象的命令,建立对机器人局限性的准确心智模型,并参与混合主动的解决方案。

🔬 方法详解

问题定义:现有的人机交互系统通常将机器人视为黑盒,用户难以理解机器人的能力范围和局限性。这导致用户难以有效地向机器人发出指令,并在机器人出现故障时提供帮助。现有的方法缺乏对机器人内部状态和能力的有效可视化和解释机制,阻碍了人机协作的效率和信任度。

核心思路:本文的核心思路是通过增强现实(AR)技术,将机器人的能力和限制以直观、可交互的方式呈现给用户。通过将对象属性和机器人限制编码到面向对象的结构中,系统能够动态生成解释,并允许用户直接在AR环境中操作机器人的虚拟孪生体。这种方法旨在提高用户对机器人能力的理解,促进混合主动的问题解决。

技术框架:X-OOHRI系统包含以下主要模块:1) 视觉-语言模型:用于理解场景中的对象属性和机器人的能力限制。2) 面向对象结构编码:将对象属性和机器人限制编码到面向对象的结构中,以便于生成解释和进行推理。3) AR界面:通过视觉符号、径向菜单、颜色编码和解释标签,将机器人的能力和限制呈现给用户。4) 虚拟孪生体:在AR环境中创建机器人的虚拟孪生体,允许用户进行交互和模拟。5) 物理机器人集成:将AR界面与物理机器人连接,实现指令的传递和执行。

关键创新:X-OOHRI的关键创新在于其可解释性和面向对象的设计。与传统的黑盒机器人交互系统不同,X-OOHRI能够动态生成解释,帮助用户理解机器人的能力和限制。面向对象的设计使得系统能够灵活地处理不同的对象和任务,并支持混合主动的问题解决。此外,利用视觉-语言模型进行对象属性和机器人限制的编码,使得系统能够自动地从视觉信息中提取相关信息,减少了人工干预。

关键设计:系统使用视觉-语言模型(具体模型未知)来提取对象属性和机器人限制。面向对象结构的设计允许对每个对象定义其属性和机器人可以执行的操作。AR界面中的视觉符号、径向菜单和颜色编码用于直观地表示机器人的能力和限制。解释标签则提供更详细的解释信息。具体的参数设置、损失函数和网络结构等技术细节在论文中未详细说明(未知)。

📊 实验亮点

用户研究表明,使用X-OOHRI的参与者能够更有效地发出面向对象的命令,并对机器人的局限性建立更准确的心智模型。此外,参与者能够积极参与混合主动的问题解决,例如在机器人无法完成任务时,通过AR界面调整指令或提供帮助。具体的性能数据和对比基线在论文中未详细说明(未知)。

🎯 应用场景

X-OOHRI可应用于各种人机协作场景,例如智能制造、仓储物流、家庭服务等。通过提高用户对机器人能力的理解,X-OOHRI能够提升人机协作的效率和安全性,降低机器人故障带来的损失。未来,该技术有望应用于更复杂的机器人系统,例如多机器人协同作业、自主导航等。

📄 摘要(原文)

Human interaction is essential for issuing personalized instructions and assisting robots when failure is likely. However, robots remain largely black boxes, offering users little insight into their evolving capabilities and limitations. To address this gap, we present explainable object-oriented HRI (X-OOHRI), an augmented reality (AR) interface that conveys robot action possibilities and constraints through visual signifiers, radial menus, color coding, and explanation tags. Our system encodes object properties and robot limits into object-oriented structures using a vision-language model, allowing explanation generation on the fly and direct manipulation of virtual twins spatially aligned within a simulated environment. We integrate the end-to-end pipeline with a physical robot and showcase diverse use cases ranging from low-level pick-and-place to high-level instructions. Finally, we evaluate X-OOHRI through a user study and find that participants effectively issue object-oriented commands, develop accurate mental models of robot limitations, and engage in mixed-initiative resolution.