XR-DT: Extended Reality-Enhanced Digital Twin for Agentic Mobile Robots

作者: Tianyi Wang, Jiseop Byeon, Ahmad Yehia, Huihai Wang, Yiming Xu, Tianyi Zeng, Ziran Wang, Junfeng Jiao, Christian Claudel

分类: cs.RO, cs.AI, cs.HC, cs.MA, eess.SY

发布日期: 2025-12-04

备注: 10 pages, 5 figures

💡 一句话要点

提出XR-DT框架，增强人机交互中移动机器人的可解释性和信任度

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 扩展现实 数字孪生 人机交互 移动机器人 多智能体系统

📋 核心要点

现有的人机交互研究较少关注人类如何感知、理解和信任机器人的推理，这阻碍了机器人在安全关键和社会嵌入环境中的部署。
XR-DT框架通过扩展现实技术增强数字孪生，融合物理和虚拟空间，实现人与机器人之间的双向理解，提升交互的可解释性和信任度。
实验结果验证了XR-DT框架在人机交互任务中预测人类和机器人轨迹的有效性，为可信赖的人机协作奠定了基础。

📝 摘要（中文）

本文提出了一种名为XR-DT的扩展现实增强数字孪生框架，用于智能移动机器人，旨在弥合物理空间和虚拟空间之间的差距，实现人与机器人之间的双向理解。该框架采用分层结构，集成了虚拟现实、增强现实和混合现实层，融合了实时传感器数据、Unity游戏引擎中的模拟环境以及通过可穿戴AR设备捕获的人类反馈。在此框架内，设计了一个智能移动机器人系统，该系统具有用于上下文感知任务自适应的统一扩散策略。此外，还提出了一种思维链提示机制，该机制允许多模态大型语言模型推理人类指令和环境上下文，同时利用基于AutoGen的多智能体协调层来增强动态任务中的鲁棒性和协作性。初步实验结果表明，该框架能够准确预测人和机器人的轨迹，验证了XR-DT框架在人机交互任务中的有效性。通过将人类意图、环境动态和机器人认知嵌入到XR-DT框架中，该系统实现了可解释、可信和自适应的人机交互。

🔬 方法详解

问题定义：在共享工作空间中，移动机器人与人类的协作日益频繁，如何确保安全、高效且可解释的人机交互（HRI）成为一个紧迫的挑战。现有方法在人类行为预测方面取得了显著进展，但对人类如何感知、解释和信任机器人的推理关注不足，这限制了机器人在安全关键和社会嵌入环境中的应用。现有方法缺乏双向理解机制，难以保证机器人行为的可解释性和人类的信任。

核心思路：XR-DT框架的核心思路是利用扩展现实（XR）技术增强数字孪生，构建一个连接物理世界和虚拟世界的桥梁，实现人与机器人之间的双向理解。通过将机器人的感知、推理和规划过程可视化，并允许人类通过XR设备进行交互和反馈，从而提高机器人行为的可解释性和人类的信任度。这种设计允许人类实时观察机器人的决策过程，并提供反馈以指导机器人的行为。

技术框架：XR-DT框架采用分层架构，包括：1) 虚拟现实层：在Unity游戏引擎中构建机器人的数字孪生环境，用于模拟和可视化机器人的行为。2) 增强现实层：通过可穿戴AR设备将虚拟信息叠加到物理世界中，允许人类实时观察机器人的状态和意图。3) 混合现实层：融合虚拟和物理信息，实现人与机器人之间的交互和协作。此外，该框架还包括一个智能移动机器人系统，该系统具有用于上下文感知任务自适应的统一扩散策略，以及一个基于AutoGen的多智能体协调层，用于增强动态任务中的鲁棒性和协作性。

关键创新：XR-DT框架的关键创新在于：1) 提出了一个基于扩展现实的数字孪生框架，用于增强人机交互的可解释性和信任度。2) 设计了一个统一的扩散策略，用于上下文感知任务自适应。3) 引入了一种思维链提示机制，利用多模态大型语言模型推理人类指令和环境上下文。4) 采用基于AutoGen的多智能体协调层，增强动态任务中的鲁棒性和协作性。与现有方法相比，XR-DT框架更加注重人与机器人之间的双向理解，并利用XR技术提供更直观的交互方式。

关键设计：该框架的关键设计包括：1) 使用Unity游戏引擎构建高保真的数字孪生环境，模拟机器人的物理特性和行为。2) 采用可穿戴AR设备（如HoloLens）进行增强现实显示，将虚拟信息叠加到物理世界中。3) 设计统一扩散策略时，需要仔细选择扩散模型的架构和训练数据，以确保模型能够适应不同的任务和环境。4) 在思维链提示机制中，需要设计合适的提示模板，引导大型语言模型进行推理和决策。5) 基于AutoGen的多智能体协调层需要设计合适的通信协议和协调策略，以确保多个智能体能够协同完成任务。

🖼️ 关键图片

📊 实验亮点

初步实验结果表明，XR-DT框架能够准确预测人和机器人的轨迹，验证了其在人机交互任务中的有效性。具体而言，该框架能够以较高的精度预测人类的运动轨迹，并根据人类的意图调整机器人的行为，从而实现更流畅、更自然的交互。这些结果表明，XR-DT框架具有很大的应用潜力，可以为各种人机协作场景提供有力的支持。

🎯 应用场景

该研究成果可应用于各种人机协作场景，例如：智能制造、仓储物流、医疗康复、家庭服务等。通过XR-DT框架，人类可以更直观地了解机器人的行为意图，并与之进行更自然、更高效的交互，从而提高工作效率、降低安全风险，并促进人与机器人之间的和谐共处。未来，该技术有望推动人机协作向更智能、更安全、更可靠的方向发展。

📄 摘要（原文）

As mobile robots increasingly operate alongside humans in shared workspaces, ensuring safe, efficient, and interpretable Human-Robot Interaction (HRI) has become a pressing challenge. While substantial progress has been devoted to human behavior prediction, limited attention has been paid to how humans perceive, interpret, and trust robots' inferences, impeding deployment in safety-critical and socially embedded environments. This paper presents XR-DT, an eXtended Reality-enhanced Digital Twin framework for agentic mobile robots, that bridges physical and virtual spaces to enable bi-directional understanding between humans and robots. Our hierarchical XR-DT architecture integrates virtual-, augmented-, and mixed-reality layers, fusing real-time sensor data, simulated environments in the Unity game engine, and human feedback captured through wearable AR devices. Within this framework, we design an agentic mobile robot system with a unified diffusion policy for context-aware task adaptation. We further propose a chain-of-thought prompting mechanism that allows multimodal large language models to reason over human instructions and environmental context, while leveraging an AutoGen-based multi-agent coordination layer to enhance robustness and collaboration in dynamic tasks. Initial experimental results demonstrate accurate human and robot trajectory prediction, validating the XR-DT framework's effectiveness in HRI tasks. By embedding human intention, environmental dynamics, and robot cognition into the XR-DT framework, our system enables interpretable, trustworthy, and adaptive HRI.

XR-DT: Extended Reality-Enhanced Digital Twin for Agentic Mobile Robots

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理