GSAM: A Generalizable and Safe Robotic Framework for Articulated Object Manipulation

📄 arXiv: 2605.30740v1 📥 PDF

作者: Beichen Shao, Mengying Xie, Heng Su, Wanyi Zhang, Mingyan Li, Yan Ding, Fausto Giunchiglia, Chao Chen

分类: cs.RO, cs.AI

发布日期: 2026-05-29

备注: Accepted by the 19th International Conference on Parallel Problem Solving from Nature (PPSN 2026)


💡 一句话要点

GSAM:一种通用且安全的铰链物体操作机器人框架

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 铰链物体操作 机器人 视觉语言模型 常识推理 运动学规划

📋 核心要点

  1. 现有铰链物体操作方法泛化性不足,易发生碰撞,原因是忽略了物体多样性和末端执行器交互的复杂性。
  2. GSAM框架通过视觉感知、VLM常识推理、交互约束生成和运动学感知规划,提升了操作的通用性和安全性。
  3. 实验表明,GSAM在铰链物体操作任务中,标准差降低3.1%,成功率提升36.0%,验证了其优越性。

📝 摘要(中文)

铰链物体操作是服务机器人面临的一项独特挑战。现有方法通常采用端到端策略学习、视觉运动规划以及大型语言/视觉语言模型(LLM/VLM),但往往忽略了铰链物体的多样性以及末端执行器与把手之间交互的复杂性,导致泛化能力有限,并可能发生破坏性碰撞。为了解决这个问题,我们提出了一种通用且安全的铰链物体操作机器人框架GSAM。具体来说,一个基于视觉的感知器生成运动学参数。考虑到感知器中预训练的标记可能产生偏离常识的原始估计,我们提出了一个基于微调VLM的精炼器,使用思维链(COT)常识推理来改进感知。为了防止破坏性碰撞,我们设计了一个交互约束函数生成器,将铰链物体、交互姿态和避障知识集成到一个基础中。然后,LLM将这些约束函数化,并将其应用于轨迹和姿态规划。一个运动学感知的操作规划器验证轨迹和姿态的可达性。在5个物体类别和50个随机初始化的末端执行器-把手配置的50个铰链任务上的实验表明,与最佳基线相比,GSAM的标准差降低了3.1%,操作成功率提高了36.0%,分别证明了GSAM在实际场景中卓越的物体泛化能力和交互安全性。

🔬 方法详解

问题定义:论文旨在解决服务机器人在铰链物体操作中泛化性差和安全性低的问题。现有方法,如端到端学习、视觉运动规划和LLM/VLM,未能充分考虑铰链物体的多样性和末端执行器与把手之间复杂的交互关系,导致在不同物体和场景下的性能下降,并可能发生碰撞损坏物体或机器人自身。

核心思路:论文的核心思路是将视觉感知、常识推理、约束生成和运动学规划相结合,构建一个通用且安全的铰链物体操作框架。通过视觉感知获取物体参数,利用VLM进行常识推理来修正感知误差,生成交互约束以避免碰撞,并使用运动学规划保证操作的可达性。

技术框架:GSAM框架主要包含以下几个模块:1) 基于视觉的感知器,用于估计铰链物体的运动学参数;2) 基于微调VLM的精炼器,利用常识推理修正感知结果;3) 交互约束函数生成器,整合物体、姿态和避障知识生成约束;4) LLM,将约束函数化并应用于轨迹和姿态规划;5) 运动学感知的操作规划器,验证轨迹和姿态的可达性。整个流程是从视觉输入开始,经过感知、推理、约束生成和规划,最终生成安全可行的操作轨迹。

关键创新:论文的关键创新在于:1) 提出了一种基于微调VLM的精炼器,利用常识推理来提高感知精度,克服了传统视觉方法对噪声和遮挡的敏感性;2) 设计了一种交互约束函数生成器,将多种约束条件整合到一个统一的框架中,保证了操作的安全性;3) 结合了LLM和运动学规划,实现了对复杂操作任务的有效规划和执行。与现有方法相比,GSAM更加注重常识推理和约束建模,从而提高了泛化性和安全性。

关键设计:VLM精炼器使用Chain-of-Thought (COT) 提示工程,引导VLM进行多步推理,从而提高常识推理的准确性。交互约束函数生成器将铰链物体、交互姿态和避障知识编码为数学约束,例如,避免末端执行器与物体或环境发生碰撞的距离约束。运动学感知的操作规划器考虑了机器人的关节限制和运动学奇异性,确保生成的轨迹是可达的。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,GSAM在50个铰链任务上显著优于现有方法。与最佳基线相比,GSAM的标准差降低了3.1%,表明其操作的稳定性更高;操作成功率提高了36.0%,表明其泛化能力更强。这些结果验证了GSAM在实际场景中卓越的物体泛化能力和交互安全性。

🎯 应用场景

GSAM框架可应用于各种服务机器人场景,例如家庭服务、医疗辅助和工业自动化。它可以帮助机器人安全可靠地操作各种铰链物体,如打开抽屉、操作门把手、调整设备等。该研究的潜在价值在于提高服务机器人的自主性和智能化水平,使其能够更好地适应复杂多变的环境,并为人类提供更便捷的服务。未来,GSAM可以进一步扩展到其他类型的物体操作任务,并与其他先进技术相结合,例如强化学习和模仿学习。

📄 摘要(原文)

Articulated object manipulation is a unique challenge for service robots. Existing methods employ end-to-end policy learning, visionmotion planning, and large-language/visual-language model (LLM/VLM), but often overlook the diversity of articulated objects and the complexity of interactions between end-effector and handle, leading to limited generalization and destructive collisions. To address this, we propose GSAM, a generalizable and safe robotic framework for articulated object manipulation. Specifically, a vision-based perceiver generates the kinematic parameters. Considering that pre-trained markers in perceiver yield raw estimations that may deviate from commonsense, we present a f ine-tuned VLM-based refiner, using chain-of-thought (COT) commonsense reasoning to refine perception. To prevent destructive collisions, we design an interaction constraint function generator, integrating articulated object, interaction pose, and obstacle avoidance knowledge into a base. LLM then functionalize these constraints and apply them to trajectory and posture planning. A kinematic-aware manipulation planner verifies reachability for trajectory and posture. Experiments on 50 hinge tasks across 5 object categories and 50 randomly initialized end-effectorhandle configurations show that GSAM reduces standard deviation by 3.1% and improves manipulation success rate by 36.0% compared to the best baseline, respectively demonstrating the superior object generalization and interaction safety of GSAM in practical scenarios.