Language-Guided Long Horizon Manipulation with LLM-based Planning and Visual Perception

作者: Changshi Zhou, Haichuan Xu, Ningquan Gu, Zhipeng Wang, Bin Cheng, Pengpeng Zhang, Yanchao Dong, Mitsuhiro Hayashibe, Yanmin Zhou, Bin He

分类: cs.RO

发布日期: 2025-09-02

💡 一句话要点

提出基于LLM规划和视觉感知的语言引导长时程操作框架，解决可变形物体操作难题

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 语言引导操作 长时程规划 可变形物体 视觉语言模型 大型语言模型 机器人操作 布料折叠

📋 核心要点

可变形物体操作因其高自由度、复杂动力学和精确的视觉-语言对齐而极具挑战，现有方法难以有效解决。
本文提出了一种统一框架，结合LLM规划器、VLM感知系统和任务执行模块，实现语言引导的长时程操作。
实验结果表明，该方法在仿真和真实机器人环境中均优于现有方法，展现了强大的泛化能力和实际应用潜力。

📝 摘要（中文）

本文针对可变形物体的语言引导长时程操作提出了一个统一框架，该任务因高自由度、复杂动力学以及精确的视觉-语言对齐而极具挑战。研究聚焦于多步骤的布料折叠，这是一个代表性的可变形物体操作任务，需要结构化的长时程规划和精细的视觉感知。该框架集成了基于大型语言模型（LLM）的规划器、基于视觉-语言模型（VLM）的感知系统以及任务执行模块。具体而言，LLM规划器将高层语言指令分解为低层动作原语，弥合了语义-执行的差距，对齐了感知与动作，并增强了泛化能力。VLM感知模块采用SigLIP2驱动的架构，结合双向交叉注意力融合机制和权重分解低秩适应（DoRA）微调，实现了语言条件下的精细视觉对齐。仿真和真实世界的实验结果表明了该方法的有效性。在仿真中，该方法在已见指令、未见指令和未见任务上分别优于最先进的基线方法2.23、1.87和33.3。在真实机器人上，该方法能够根据语言指令，在不同的布料材质和配置下稳健地执行多步骤折叠序列，展示了在实际场景中的强大泛化能力。

🔬 方法详解

问题定义：论文旨在解决语言引导下的可变形物体长时程操作问题，特别是布料折叠任务。现有方法在处理此类任务时，面临着语义鸿沟、感知与动作对齐困难以及泛化能力不足等痛点。这些方法难以有效地将高层语言指令转化为低层机器人动作，并且在面对新的布料材质和配置时表现不佳。

核心思路：论文的核心思路是将大型语言模型（LLM）的规划能力与视觉-语言模型（VLM）的感知能力相结合，构建一个统一的框架。LLM负责将高层语言指令分解为可执行的动作序列，VLM负责根据视觉信息进行精细的感知和对齐。这种设计旨在弥合语义-执行的差距，增强感知与动作的关联性，并提高模型的泛化能力。

技术框架：该框架包含三个主要模块：LLM规划器、VLM感知系统和任务执行模块。首先，LLM规划器接收高层语言指令，并将其分解为一系列低层动作原语。然后，VLM感知系统利用视觉信息对场景进行感知，并与语言指令进行对齐。最后，任务执行模块根据规划器和感知系统的输出，控制机器人执行相应的动作。整个流程实现了从语言指令到机器人动作的闭环控制。

关键创新：该论文的关键创新在于将LLM和VLM有效地结合起来，用于解决可变形物体的长时程操作问题。具体而言，LLM的规划能力使得模型能够处理复杂的任务序列，而VLM的感知能力使得模型能够准确地理解场景信息。此外，论文还提出了一个双向交叉注意力融合机制和权重分解低秩适应（DoRA）微调方法，进一步提高了VLM的性能。

关键设计：VLM感知模块采用了SigLIP2作为基础架构，并引入了双向交叉注意力融合机制，以更好地融合视觉和语言信息。此外，论文还使用了权重分解低秩适应（DoRA）微调方法，以提高模型的训练效率和泛化能力。在损失函数方面，论文可能采用了对比学习损失或交叉熵损失，以促进视觉和语言特征的对齐（具体损失函数细节未知）。

🖼️ 关键图片

📊 实验亮点

实验结果表明，该方法在仿真环境中显著优于现有方法，在已见指令、未见指令和未见任务上分别取得了2.23、1.87和33.3的性能提升。更重要的是，该方法在真实机器人环境中也表现出色，能够根据语言指令稳健地执行多步骤折叠序列，展示了强大的泛化能力和实际应用潜力。

🎯 应用场景

该研究成果可广泛应用于自动化服装制造、医疗手术辅助、家庭服务机器人等领域。通过语言指令引导机器人完成复杂的布料折叠、缝纫等任务，能够显著提高生产效率和操作精度。此外，该技术还可应用于其他可变形物体的操作，例如电缆整理、食品加工等，具有广阔的应用前景。

📄 摘要（原文）

Language-guided long-horizon manipulation of deformable objects presents significant challenges due to high degrees of freedom, complex dynamics, and the need for accurate vision-language grounding. In this work, we focus on multi-step cloth folding, a representative deformable-object manipulation task that requires both structured long-horizon planning and fine-grained visual perception. To this end, we propose a unified framework that integrates a Large Language Model (LLM)-based planner, a Vision-Language Model (VLM)-based perception system, and a task execution module. Specifically, the LLM-based planner decomposes high-level language instructions into low-level action primitives, bridging the semantic-execution gap, aligning perception with action, and enhancing generalization. The VLM-based perception module employs a SigLIP2-driven architecture with a bidirectional cross-attention fusion mechanism and weight-decomposed low-rank adaptation (DoRA) fine-tuning to achieve language-conditioned fine-grained visual grounding. Experiments in both simulation and real-world settings demonstrate the method's effectiveness. In simulation, it outperforms state-of-the-art baselines by 2.23, 1.87, and 33.3 on seen instructions, unseen instructions, and unseen tasks, respectively. On a real robot, it robustly executes multi-step folding sequences from language instructions across diverse cloth materials and configurations, demonstrating strong generalization in practical scenarios. Project page: https://language-guided.netlify.app/

Language-Guided Long Horizon Manipulation with LLM-based Planning and Visual Perception

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理