ODYSSEY: Open-World Quadrupeds Exploration and Manipulation for Long-Horizon Tasks

📄 arXiv: 2508.08240v1 📥 PDF

作者: Kaijun Wang, Liqin Lu, Mingyu Liu, Jianuo Jiang, Zeju Li, Bolin Zhang, Wancai Zheng, Xinyi Yu, Hao Chen, Chunhua Shen

分类: cs.RO, cs.CV

发布日期: 2025-08-11

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

提出ODYSSEY框架以解决长时间移动操控挑战

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱六:视频提取与匹配 (Video Extraction) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 长时间移动操控 视觉-语言模型 四足机器人 自我中心感知 多模态输入 模拟到现实转移 非结构化环境 任务规划

📋 核心要点

  1. 现有方法在长时间移动操控中面临感知与执行范围限制,难以适应开放世界的多样化物体配置。
  2. ODYSSEY框架通过视觉-语言模型实现高层任务规划与低层全身控制的集成,解决了自我中心感知问题。
  3. 实验结果表明,ODYSSEY在多种室内外场景中表现出良好的泛化能力与鲁棒性,推动了复杂动态任务的实现。

📝 摘要(中文)

语言引导的长时间移动操控一直是具身语义推理、可推广操控和自适应运动中的重大挑战。现有方法存在三大限制:一是大型语言模型在空间推理和任务规划方面的应用仍局限于桌面场景,未能有效应对移动平台的感知和执行范围限制;二是当前操控策略在开放世界环境中对多样化物体配置的泛化能力不足;三是在非结构化环境中,保持高平台机动性与精确末端执行器控制的双重需求尚未得到充分研究。为此,我们提出了ODYSSEY,一个统一的移动操控框架,旨在为灵活的四足机器人提供高层任务规划与低层全身控制的无缝集成。我们引入了一个由视觉-语言模型驱动的分层规划器,解决了语言条件任务中的自我中心感知挑战,并实现了长时间指令分解与精确动作执行。通过成功的模拟到现实转移,我们展示了系统在现实部署中的泛化能力与鲁棒性,推动了腿式操控器在非结构化环境中的实用性。

🔬 方法详解

问题定义:本论文旨在解决长时间移动操控中的感知与执行范围限制,现有方法在开放世界环境中的泛化能力不足,且在非结构化环境中难以同时保持高机动性与精确控制。

核心思路:ODYSSEY框架通过引入视觉-语言模型的分层规划器,解决了语言条件任务中的自我中心感知问题,能够有效地进行长时间指令的分解与执行。

技术框架:ODYSSEY的整体架构包括高层任务规划模块和低层全身控制模块,前者负责任务的分解与规划,后者则实现对四足机器人的精确控制与协调。

关键创新:本研究的核心创新在于将视觉-语言模型与移动操控框架相结合,实现了对复杂环境的有效适应,显著提升了操控的灵活性与准确性。

关键设计:在设计中,采用了分层控制策略,结合多模态输入,优化了损失函数与网络结构,以提高系统在多样化场景中的表现。通过模拟到现实的转移,验证了设计的有效性与实用性。

📊 实验亮点

实验结果显示,ODYSSEY在多种室内外场景中实现了显著的性能提升,成功完成了长时间移动操控任务,展现出良好的泛化能力与鲁棒性,尤其在复杂地形中的表现优于现有基线方法。

🎯 应用场景

ODYSSEY框架的潜在应用领域包括智能家居、仓储物流、救援任务等多种场景。其能够在复杂动态环境中执行长时间的移动操控任务,具有重要的实际价值和广泛的未来影响。

📄 摘要(原文)

Language-guided long-horizon mobile manipulation has long been a grand challenge in embodied semantic reasoning, generalizable manipulation, and adaptive locomotion. Three fundamental limitations hinder progress: First, although large language models have improved spatial reasoning and task planning through semantic priors, existing implementations remain confined to tabletop scenarios, failing to address the constrained perception and limited actuation ranges of mobile platforms. Second, current manipulation strategies exhibit insufficient generalization when confronted with the diverse object configurations encountered in open-world environments. Third, while crucial for practical deployment, the dual requirement of maintaining high platform maneuverability alongside precise end-effector control in unstructured settings remains understudied. In this work, we present ODYSSEY, a unified mobile manipulation framework for agile quadruped robots equipped with manipulators, which seamlessly integrates high-level task planning with low-level whole-body control. To address the challenge of egocentric perception in language-conditioned tasks, we introduce a hierarchical planner powered by a vision-language model, enabling long-horizon instruction decomposition and precise action execution. At the control level, our novel whole-body policy achieves robust coordination across challenging terrains. We further present the first benchmark for long-horizon mobile manipulation, evaluating diverse indoor and outdoor scenarios. Through successful sim-to-real transfer, we demonstrate the system's generalization and robustness in real-world deployments, underscoring the practicality of legged manipulators in unstructured environments. Our work advances the feasibility of generalized robotic assistants capable of complex, dynamic tasks. Our project page: https://kaijwang.github.io/odyssey.github.io/