Towards Proprioception-Aware Embodied Planning for Dual-Arm Humanoid Robots
作者: Boyu Li, Siyuan He, Hang Xu, Haoqi Yuan, Xinrun Xu, Yu Zang, Liwei Hu, Junpeng Yue, Zhenxiong Jiang, Pengbo Hu, Börje F. Karlsson, Yehui Tang, Zongqing Lu
分类: cs.RO
发布日期: 2025-10-09 (更新: 2025-10-15)
💡 一句话要点
针对双臂人形机器人,提出具身感知的Proprio-MLLM规划方法与DualTHOR仿真平台。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 双臂人形机器人 具身智能 多模态大语言模型 本体感受 运动规划
📋 核心要点
- 现有MLLM在双臂人形机器人长时程任务中表现受限,缺乏有效的仿真平台支持任务评估和数据收集。
- 提出Proprio-MLLM,通过融合本体感受信息和跨空间编码器,增强MLLM的具身感知能力,提升规划性能。
- 构建DualTHOR仿真平台,提供连续转换和应急机制,为双臂人形机器人任务提供评估和数据收集环境。
📝 摘要(中文)
近年来,多模态大型语言模型(MLLM)已展现出作为高级规划器的潜力,使机器人能够遵循复杂的人类指令。然而,它们在涉及双臂人形机器人的长时程任务中的有效性仍然有限。这主要是由于两个挑战:(i)缺乏系统性地支持人形机器人任务评估和数据收集的仿真平台,以及(ii)当前MLLM的具身感知不足,这阻碍了规划过程中对双臂选择逻辑和身体位置的推理。为了解决这些问题,我们提出了DualTHOR,一个新的双臂人形机器人模拟器,具有连续转换和应急机制。在此平台的基础上,我们提出了Proprio-MLLM,该模型通过结合基于运动的位置嵌入和跨空间编码器来整合本体感受信息,从而增强具身感知。实验表明,虽然现有的MLLM在此环境中表现不佳,但Proprio-MLLM在规划性能方面平均提高了19.75%。我们的工作提供了一个重要的仿真平台和一个有效的模型,以推进人形机器人中的具身智能。
🔬 方法详解
问题定义:现有MLLM在双臂人形机器人任务中,难以有效进行长时程规划,主要痛点在于缺乏对机器人自身状态(本体感受)的感知,以及缺乏合适的仿真环境进行训练和评估。这导致模型无法准确推理双臂的选择逻辑和身体姿态,从而影响规划的成功率。
核心思路:核心在于增强MLLM的具身感知能力,使其能够更好地理解和利用机器人自身的运动信息。通过将本体感受信息融入到模型的输入中,并设计专门的编码器来处理这些信息,从而提高模型对机器人状态的理解和推理能力。同时,构建仿真平台,提供数据支持。
技术框架:整体框架包括DualTHOR仿真平台和Proprio-MLLM模型。DualTHOR负责提供仿真环境和数据,Proprio-MLLM则负责进行规划。Proprio-MLLM的输入包括视觉信息、语言指令和本体感受信息。模型首先使用运动嵌入对本体感受信息进行编码,然后使用跨空间编码器将视觉信息和本体感受信息融合,最后使用MLLM进行规划。
关键创新:关键创新在于将本体感受信息融入到MLLM中,并设计了运动嵌入和跨空间编码器来处理这些信息。运动嵌入能够将本体感受信息转换为位置嵌入,从而更好地表示机器人的状态。跨空间编码器能够有效地融合视觉信息和本体感受信息,从而提高模型对环境的理解能力。
关键设计:运动嵌入使用基于运动的位置编码,将关节角度等本体感受信息映射到高维空间。跨空间编码器采用Transformer结构,通过自注意力机制来融合视觉信息和本体感受信息。损失函数包括规划损失和动作预测损失,用于优化模型的规划能力和动作预测能力。
🖼️ 关键图片
📊 实验亮点
实验结果表明,Proprio-MLLM在DualTHOR仿真平台上取得了显著的性能提升,平均规划性能提高了19.75%。相比于现有的MLLM,Proprio-MLLM能够更好地理解和利用本体感受信息,从而更准确地进行规划。这证明了该方法在增强人形机器人具身感知能力方面的有效性。
🎯 应用场景
该研究成果可应用于各种需要双臂人形机器人进行复杂操作的场景,例如智能制造、家庭服务、医疗辅助等。通过提高机器人的规划能力和具身感知能力,可以使其更好地适应复杂环境,完成各种任务,从而提高生产效率和服务质量。未来,该技术有望推动人形机器人在实际生活中的广泛应用。
📄 摘要(原文)
In recent years, Multimodal Large Language Models (MLLMs) have demonstrated the ability to serve as high-level planners, enabling robots to follow complex human instructions. However, their effectiveness, especially in long-horizon tasks involving dual-arm humanoid robots, remains limited. This limitation arises from two main challenges: (i) the absence of simulation platforms that systematically support task evaluation and data collection for humanoid robots, and (ii) the insufficient embodiment awareness of current MLLMs, which hinders reasoning about dual-arm selection logic and body positions during planning. To address these issues, we present DualTHOR, a new dual-arm humanoid simulator, with continuous transition and a contingency mechanism. Building on this platform, we propose Proprio-MLLM, a model that enhances embodiment awareness by incorporating proprioceptive information with motion-based position embedding and a cross-spatial encoder. Experiments show that, while existing MLLMs struggle in this environment, Proprio-MLLM achieves an average improvement of 19.75% in planning performance. Our work provides both an essential simulation platform and an effective model to advance embodied intelligence in humanoid robotics. The code is available at https://anonymous.4open.science/r/DualTHOR-5F3B.