Quadrupped-Legged Robot Movement Plan Generation using Large Language Model

📄 arXiv: 2512.21293v1 📥 PDF

作者: Muhtadin, Vincentius Gusti Putu A. B. M., Ahmad Zaini, Mauridhi Hery Purnomo, I Ketut Eddy Purnama, Chastine Fatichah

分类: cs.RO, cs.HC

发布日期: 2025-12-24

期刊: 2025 International Conference on Computer Engineering, Network and Intelligent Multimedia (CENIM)

DOI: 10.1109/CENIM67940.2025.11326112


💡 一句话要点

提出基于大语言模型的四足机器人自然语言运动规划方法

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 四足机器人 大型语言模型 自然语言控制 运动规划 ROS导航

📋 核心要点

  1. 传统四足机器人控制接口门槛高,需要专业技术知识才能有效操作。
  2. 利用大型语言模型,将高级指令处理卸载到外部服务器,实现自然语言导航。
  3. 实验结果表明,该系统在各种场景中具有超过90%的成功率。

📝 摘要(中文)

本文提出了一种新颖的控制框架,该框架集成了大型语言模型(LLM),以实现直观的、基于自然语言的四足机器人导航。为了克服DeepRobotics Jueying Lite 3平台的板载计算约束,该系统采用了一种分布式架构,将高级指令处理卸载到外部服务器。该系统利用实时传感器融合(LiDAR、IMU和里程计)将LLM生成的计划转化为可执行的ROS导航命令。在结构化的室内环境中,针对四种不同的场景(从单房间任务到复杂的跨区域导航)进行了实验验证。结果表明,该系统具有鲁棒性,在所有场景中的总体成功率超过90%,验证了基于卸载LLM的规划在现实环境中自主部署四足机器人的可行性。

🔬 方法详解

问题定义:传统四足机器人的控制通常需要专业的技术知识,使得非专业人士难以操作。现有的控制接口复杂,学习成本高,限制了四足机器人在更广泛场景中的应用。因此,需要一种更直观、更易于使用的控制方法,降低操作门槛。

核心思路:本文的核心思路是利用大型语言模型(LLM)的自然语言理解和生成能力,将用户的自然语言指令转化为机器人可执行的运动规划。通过将计算密集型的LLM处理卸载到外部服务器,解决了机器人板载计算资源有限的问题。

技术框架:该系统的整体架构是一个分布式系统,包括以下主要模块:1) 用户输入自然语言指令;2) 外部服务器上的LLM处理自然语言指令,生成高层运动规划;3) 机器人上的ROS导航系统接收高层运动规划,并结合实时传感器数据(LiDAR、IMU、里程计)生成低层控制指令;4) 机器人执行控制指令,完成导航任务。

关键创新:该方法最重要的技术创新点在于将大型语言模型应用于四足机器人的运动规划。与传统的基于规则或优化的运动规划方法相比,该方法能够理解更复杂的自然语言指令,并生成更灵活的运动规划。此外,通过卸载LLM处理,解决了机器人板载计算资源有限的问题。

关键设计:该系统采用DeepRobotics Jueying Lite 3四足机器人平台,并使用ROS作为机器人操作系统。LLM的具体选择和训练细节未知,但其关键作用是理解自然语言指令并生成高层运动规划。传感器融合算法的具体实现未知,但其作用是将LiDAR、IMU和里程计数据融合,为ROS导航系统提供准确的环境感知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该系统在结构化室内环境中,针对四种不同的场景(从单房间任务到复杂的跨区域导航)进行了验证,总体成功率超过90%。这表明基于卸载LLM的规划方法在现实环境中具有很高的可行性和鲁棒性,能够有效地完成自主导航任务。

🎯 应用场景

该研究成果可应用于搜救、巡检、物流等领域。通过自然语言控制,非专业人员也能轻松操控四足机器人完成复杂任务,降低了使用门槛。未来,该技术有望在家庭服务、医疗辅助等领域发挥重要作用,提升机器人的智能化水平和服务能力。

📄 摘要(原文)

Traditional control interfaces for quadruped robots often impose a high barrier to entry, requiring specialized technical knowledge for effective operation. To address this, this paper presents a novel control framework that integrates Large Language Models (LLMs) to enable intuitive, natural language-based navigation. We propose a distributed architecture where high-level instruction processing is offloaded to an external server to overcome the onboard computational constraints of the DeepRobotics Jueying Lite 3 platform. The system grounds LLM-generated plans into executable ROS navigation commands using real-time sensor fusion (LiDAR, IMU, and Odometry). Experimental validation was conducted in a structured indoor environment across four distinct scenarios, ranging from single-room tasks to complex cross-zone navigation. The results demonstrate the system's robustness, achieving an aggregate success rate of over 90\% across all scenarios, validating the feasibility of offloaded LLM-based planning for autonomous quadruped deployment in real-world settings.