Language-Guided Long Horizon Manipulation with LLM-based Planning and Visual Perception

📄 arXiv: 2509.02324v1 📥 PDF

作者: Changshi Zhou, Haichuan Xu, Ningquan Gu, Zhipeng Wang, Bin Cheng, Pengpeng Zhang, Yanchao Dong, Mitsuhiro Hayashibe, Yanmin Zhou, Bin He

分类: cs.RO

发布日期: 2025-09-02


💡 一句话要点

提出基于LLM规划和视觉感知的语言引导长时程操作框架,解决可变形物体操作难题

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 语言引导操作 长时程规划 可变形物体 视觉语言模型 大型语言模型 机器人操作 布料折叠

📋 核心要点

  1. 可变形物体操作因其高自由度、复杂动力学和精确的视觉-语言对齐而极具挑战,现有方法难以有效解决。
  2. 本文提出了一种统一框架,结合LLM规划器、VLM感知系统和任务执行模块,实现语言引导的长时程操作。
  3. 实验结果表明,该方法在仿真和真实机器人环境中均优于现有方法,展现了强大的泛化能力和实际应用潜力。

📝 摘要(中文)

本文针对可变形物体的语言引导长时程操作提出了一个统一框架,该任务因高自由度、复杂动力学以及精确的视觉-语言对齐而极具挑战。研究聚焦于多步骤的布料折叠,这是一个代表性的可变形物体操作任务,需要结构化的长时程规划和精细的视觉感知。该框架集成了基于大型语言模型(LLM)的规划器、基于视觉-语言模型(VLM)的感知系统以及任务执行模块。具体而言,LLM规划器将高层语言指令分解为低层动作原语,弥合了语义-执行的差距,对齐了感知与动作,并增强了泛化能力。VLM感知模块采用SigLIP2驱动的架构,结合双向交叉注意力融合机制和权重分解低秩适应(DoRA)微调,实现了语言条件下的精细视觉对齐。仿真和真实世界的实验结果表明了该方法的有效性。在仿真中,该方法在已见指令、未见指令和未见任务上分别优于最先进的基线方法2.23、1.87和33.3。在真实机器人上,该方法能够根据语言指令,在不同的布料材质和配置下稳健地执行多步骤折叠序列,展示了在实际场景中的强大泛化能力。

🔬 方法详解

问题定义:论文旨在解决语言引导下的可变形物体长时程操作问题,特别是布料折叠任务。现有方法在处理此类任务时,面临着语义鸿沟、感知与动作对齐困难以及泛化能力不足等痛点。这些方法难以有效地将高层语言指令转化为低层机器人动作,并且在面对新的布料材质和配置时表现不佳。

核心思路:论文的核心思路是将大型语言模型(LLM)的规划能力与视觉-语言模型(VLM)的感知能力相结合,构建一个统一的框架。LLM负责将高层语言指令分解为可执行的动作序列,VLM负责根据视觉信息进行精细的感知和对齐。这种设计旨在弥合语义-执行的差距,增强感知与动作的关联性,并提高模型的泛化能力。

技术框架:该框架包含三个主要模块:LLM规划器、VLM感知系统和任务执行模块。首先,LLM规划器接收高层语言指令,并将其分解为一系列低层动作原语。然后,VLM感知系统利用视觉信息对场景进行感知,并与语言指令进行对齐。最后,任务执行模块根据规划器和感知系统的输出,控制机器人执行相应的动作。整个流程实现了从语言指令到机器人动作的闭环控制。

关键创新:该论文的关键创新在于将LLM和VLM有效地结合起来,用于解决可变形物体的长时程操作问题。具体而言,LLM的规划能力使得模型能够处理复杂的任务序列,而VLM的感知能力使得模型能够准确地理解场景信息。此外,论文还提出了一个双向交叉注意力融合机制和权重分解低秩适应(DoRA)微调方法,进一步提高了VLM的性能。

关键设计:VLM感知模块采用了SigLIP2作为基础架构,并引入了双向交叉注意力融合机制,以更好地融合视觉和语言信息。此外,论文还使用了权重分解低秩适应(DoRA)微调方法,以提高模型的训练效率和泛化能力。在损失函数方面,论文可能采用了对比学习损失或交叉熵损失,以促进视觉和语言特征的对齐(具体损失函数细节未知)。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在仿真环境中显著优于现有方法,在已见指令、未见指令和未见任务上分别取得了2.23、1.87和33.3的性能提升。更重要的是,该方法在真实机器人环境中也表现出色,能够根据语言指令稳健地执行多步骤折叠序列,展示了强大的泛化能力和实际应用潜力。

🎯 应用场景

该研究成果可广泛应用于自动化服装制造、医疗手术辅助、家庭服务机器人等领域。通过语言指令引导机器人完成复杂的布料折叠、缝纫等任务,能够显著提高生产效率和操作精度。此外,该技术还可应用于其他可变形物体的操作,例如电缆整理、食品加工等,具有广阔的应用前景。

📄 摘要(原文)

Language-guided long-horizon manipulation of deformable objects presents significant challenges due to high degrees of freedom, complex dynamics, and the need for accurate vision-language grounding. In this work, we focus on multi-step cloth folding, a representative deformable-object manipulation task that requires both structured long-horizon planning and fine-grained visual perception. To this end, we propose a unified framework that integrates a Large Language Model (LLM)-based planner, a Vision-Language Model (VLM)-based perception system, and a task execution module. Specifically, the LLM-based planner decomposes high-level language instructions into low-level action primitives, bridging the semantic-execution gap, aligning perception with action, and enhancing generalization. The VLM-based perception module employs a SigLIP2-driven architecture with a bidirectional cross-attention fusion mechanism and weight-decomposed low-rank adaptation (DoRA) fine-tuning to achieve language-conditioned fine-grained visual grounding. Experiments in both simulation and real-world settings demonstrate the method's effectiveness. In simulation, it outperforms state-of-the-art baselines by 2.23, 1.87, and 33.3 on seen instructions, unseen instructions, and unseen tasks, respectively. On a real robot, it robustly executes multi-step folding sequences from language instructions across diverse cloth materials and configurations, demonstrating strong generalization in practical scenarios. Project page: https://language-guided.netlify.app/