Probabilistic Human Intent Prediction for Mobile Manipulation: An Evaluation with Human-Inspired Constraints
作者: Cesar Alan Contreras, Manolis Chiou, Alireza Rastegarpanah, Michal Szulik, Rustam Stolkin
分类: cs.RO, cs.CV, cs.HC
发布日期: 2025-07-14
备注: Submitted to Journal of Intelligent & Robotic Systems (Under Review)
💡 一句话要点
GUIDER:一种用于移动操作的概率性人类意图预测框架
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 人机协作 意图预测 移动操作 概率推理 机器人导航
📋 核心要点
- 现有方法难以在不限制人类控制或引起冲突的情况下实现人机协作,对人类意图的准确推断至关重要。
- GUIDER框架通过双信念层跟踪导航和操作目标,融合多种信息源进行概率推理,从而估计人类意图。
- 实验表明,GUIDER在导航和操作任务中均优于基线方法,尤其在重定向场景中提升显著。
📝 摘要(中文)
本文提出了一种名为GUIDER(Global User Intent Dual-phase Estimation for Robots)的概率框架,旨在使机器人能够估计人类操作者的意图,从而实现更自然的人机协作。GUIDER维护两个耦合的信念层,分别跟踪导航目标和操作目标。在导航阶段,协同图融合控制器速度和占据栅格来对交互区域进行排序。到达目标后,自主多视角扫描构建局部3D点云。在操作阶段,GUIDER结合U2Net显著性、FastSAM实例显著性和三个几何抓取可行性测试,以及末端执行器运动学感知的更新规则,实时演化对象概率。GUIDER无需预定义目标即可识别意图区域和对象。在Isaac Sim中进行的25次试验中,GUIDER在导航和操作阶段均优于基线方法,验证了双阶段框架的有效性。
🔬 方法详解
问题定义:现有的人机协作系统通常依赖于预定义的任务目标或对人类行为的严格约束,这限制了人类操作的自由度和灵活性。准确预测人类意图,特别是在移动操作场景下,仍然是一个挑战。现有的方法在处理复杂环境、多模态信息融合以及实时性方面存在不足。
核心思路:GUIDER的核心思路是将人类意图预测分解为导航和操作两个阶段,并分别建立概率模型进行推理。通过融合来自不同传感器和算法的信息,例如控制器速度、占据栅格、显著性检测和几何可行性测试,GUIDER能够更准确地估计人类的意图。这种双阶段方法允许系统在人类到达目标区域后,更专注于操作对象的识别和抓取。
技术框架:GUIDER框架包含导航和操作两个阶段。在导航阶段,系统使用协同图(Synergy Map)融合控制器速度和占据栅格信息,对潜在的交互区域进行排序。一旦机器人到达目标区域,系统会进行自主多视角扫描,构建局部3D点云。在操作阶段,系统结合U2Net显著性检测、FastSAM实例分割以及三个几何抓取可行性测试,并使用末端执行器运动学感知的更新规则,实时更新对象概率。
关键创新:GUIDER的关键创新在于其双阶段概率框架,能够同时跟踪导航和操作意图。此外,GUIDER还创新性地融合了多种信息源,包括控制器速度、占据栅格、视觉显著性和几何约束,从而提高了意图预测的准确性和鲁棒性。末端执行器运动学感知的更新规则也是一个重要的创新点,它能够根据机器人的运动能力来调整对象概率。
关键设计:在导航阶段,协同图通过加权融合控制器速度和占据栅格信息来计算交互区域的得分。在操作阶段,U2Net和FastSAM用于提取图像的显著性信息,几何抓取可行性测试则用于评估对象的抓取难度。末端执行器运动学感知的更新规则使用贝叶斯更新公式,根据机器人的运动能力和观测数据来更新对象概率。具体的参数设置和权重分配需要根据实际应用场景进行调整。
🖼️ 关键图片
📊 实验亮点
实验结果表明,GUIDER在导航阶段的稳定性达到93-100%,优于BOIR基线的60-100%,在重定向场景中提升了39.5%。在操作阶段,GUIDER的稳定性达到94-100%,优于Trajectron基线的69-100%,在重定向任务中提升了31.4%。在几何约束试验中,GUIDER比Trajectron提前三倍识别出目标对象(预测剩余时间中位数分别为23.6秒和7.8秒)。
🎯 应用场景
该研究成果可应用于各种人机协作场景,例如:辅助机器人、智能家居、工业自动化等。通过准确预测人类意图,机器人可以更好地理解人类的需求,从而提供更智能、更高效的服务。例如,在辅助机器人领域,机器人可以根据人类的意图,自动导航到目标位置并抓取所需物品。在工业自动化领域,机器人可以与工人协同完成复杂的装配任务。
📄 摘要(原文)
Accurate inference of human intent enables human-robot collaboration without constraining human control or causing conflicts between humans and robots. We present GUIDER (Global User Intent Dual-phase Estimation for Robots), a probabilistic framework that enables a robot to estimate the intent of human operators. GUIDER maintains two coupled belief layers, one tracking navigation goals and the other manipulation goals. In the Navigation phase, a Synergy Map blends controller velocity with an occupancy grid to rank interaction areas. Upon arrival at a goal, an autonomous multi-view scan builds a local 3D cloud. The Manipulation phase combines U2Net saliency, FastSAM instance saliency, and three geometric grasp-feasibility tests, with an end-effector kinematics-aware update rule that evolves object probabilities in real-time. GUIDER can recognize areas and objects of intent without predefined goals. We evaluated GUIDER on 25 trials (five participants x five task variants) in Isaac Sim, and compared it with two baselines, one for navigation and one for manipulation. Across the 25 trials, GUIDER achieved a median stability of 93-100% during navigation, compared with 60-100% for the BOIR baseline, with an improvement of 39.5% in a redirection scenario (T5). During manipulation, stability reached 94-100% (versus 69-100% for Trajectron), with a 31.4% difference in a redirection task (T3). In geometry-constrained trials (manipulation), GUIDER recognized the object intent three times earlier than Trajectron (median remaining time to confident prediction 23.6 s vs 7.8 s). These results validate our dual-phase framework and show improvements in intent inference in both phases of mobile manipulation tasks.