SafeHumanoid: VLM-RAG-driven Control of Upper Body Impedance for Humanoid Robot

📄 arXiv: 2511.23300v1 📥 PDF

作者: Yara Mahmoud, Jeffrin Sam, Nguyen Khang, Marcelino Fernando, Issatay Tokmurziyev, Miguel Altamirano Cabrera, Muhammad Haris Khan, Artem Lykov, Dzmitry Tsetserukou

分类: cs.RO

发布日期: 2025-11-28


💡 一句话要点

提出SafeHumanoid以解决人机交互中的安全性与灵活性问题

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱六:视频提取与匹配 (Video Extraction)

关键词: 人机交互 视觉语言模型 检索增强生成 阻抗控制 动态环境 安全性 适应性 机器人技术

📋 核心要点

  1. 现有的人机交互方法在动态环境中响应速度不足,难以有效调节机器人行为以确保安全性。
  2. SafeHumanoid通过结合视觉语言模型和检索增强生成,提供了一种新的阻抗和速度调度方法,提升了机器人对环境的适应能力。
  3. 实验结果显示,该系统在多种桌面操作任务中成功适应了不同的上下文,尽管推理延迟仍存在,但安全性得到了显著提升。

📝 摘要(中文)

安全可靠的人机交互(HRI)不仅要求机器人完成任务,还需根据场景上下文和人类接近度调节阻抗和速度。本文提出SafeHumanoid,一个将视觉语言模型(VLM)与检索增强生成(RAG)相结合的自我中心视觉管道,用于调度人形机器人上半身的阻抗和速度参数。通过结构化的VLM提示处理自我中心帧,并与经过验证的场景数据库进行匹配,最终通过逆向运动学映射到关节级阻抗命令。我们在有无人的桌面操作任务中评估该系统,结果表明该管道能够以上下文感知的方式调整刚度、阻尼和速度配置,确保任务成功的同时提高安全性。

🔬 方法详解

问题定义:本文旨在解决人机交互中机器人在动态环境下的安全性与灵活性问题。现有方法在快速变化的场景中响应不够及时,难以有效调节机器人行为以确保安全。

核心思路:SafeHumanoid的核心思想是通过结合视觉语言模型(VLM)和检索增强生成(RAG),实现对人形机器人上半身阻抗和速度的智能调度,以适应不同的环境和人类接近度。

技术框架:该系统的整体架构包括自我中心视觉输入、结构化的VLM提示、与场景数据库的匹配以及通过逆向运动学生成的关节级阻抗命令。具体流程为:首先处理视觉输入,然后生成相应的阻抗和速度参数。

关键创新:最重要的技术创新在于将视觉语言模型与检索增强生成相结合,形成了一种新的上下文感知的阻抗控制方法。这种方法与传统的基于规则或模型的方法有本质区别,能够更好地适应复杂的动态环境。

关键设计:在设计中,系统使用了经过验证的场景数据库,并通过逆向运动学将高层次的阻抗命令映射到具体的关节动作。此外,系统的推理延迟为1.4秒,尽管在动态环境中仍需改进,但在安全性方面表现出色。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,SafeHumanoid在多种桌面操作任务中成功适应了不同的上下文,保持了任务成功率,同时提高了安全性。尽管当前的推理延迟达到1.4秒,但相较于传统方法,安全性和上下文感知能力显著提升,展示了该方法的有效性和潜力。

🎯 应用场景

SafeHumanoid的研究成果在服务机器人、医疗辅助机器人和人机协作工业机器人等领域具有广泛的应用潜力。通过提升机器人在复杂环境中的安全性和适应能力,该技术能够促进更高效的人机协作,减少潜在的安全风险,推动智能机器人技术的实际应用与发展。

📄 摘要(原文)

Safe and trustworthy Human Robot Interaction (HRI) requires robots not only to complete tasks but also to regulate impedance and speed according to scene context and human proximity. We present SafeHumanoid, an egocentric vision pipeline that links Vision Language Models (VLMs) with Retrieval-Augmented Generation (RAG) to schedule impedance and velocity parameters for a humanoid robot. Egocentric frames are processed by a structured VLM prompt, embedded and matched against a curated database of validated scenarios, and mapped to joint-level impedance commands via inverse kinematics. We evaluate the system on tabletop manipulation tasks with and without human presence, including wiping, object handovers, and liquid pouring. The results show that the pipeline adapts stiffness, damping, and speed profiles in a context-aware manner, maintaining task success while improving safety. Although current inference latency (up to 1.4 s) limits responsiveness in highly dynamic settings, SafeHumanoid demonstrates that semantic grounding of impedance control is a viable path toward safer, standard-compliant humanoid collaboration.