Towards a Unified Understanding of Robot Manipulation: A Comprehensive Survey

作者: Shuanghao Bai, Wenxuan Song, Jiayi Chen, Yuheng Ji, Zhide Zhong, Jin Yang, Han Zhao, Wanqi Zhou, Wei Zhao, Zhe Li, Pengxiang Ding, Cheng Chi, Haoang Li, Chang Xu, Xiaolong Zheng, Donglin Wang, Shanghang Zhang, Badong Chen

分类: cs.RO

发布日期: 2025-10-13

🔗 代码/项目: GITHUB

💡 一句话要点

机器人操作的统一理解：全面的综述，涵盖方法、瓶颈与应用。

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture) 支柱三：空间感知与语义 (Perception & Semantics) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 机器人操作 具身智能 高层规划 低层控制 机器学习 数据瓶颈 综述

📋 核心要点

机器人操作面临感知、规划和控制的无缝集成难题，现有方法在复杂非结构化环境中泛化能力不足。
论文通过统一的分类体系，整合了高层规划（语言、代码等）和低层控制（基于学习的范式），从而提供更全面的理解。
论文深入分析了数据收集、利用和泛化等关键瓶颈，并对机器人操作的实际应用进行了广泛的回顾。

📝 摘要（中文）

本文对机器人操作进行了全面的综述，涵盖了基础背景、任务导向的基准和数据集，以及现有方法的统一分类。论文扩展了传统的高层规划和低层控制之间的划分，将高层规划扩展到包括语言、代码、运动、可供性和3D表示，并基于输入建模、潜在学习和策略学习等训练范式，提出了一个新的基于学习的低层控制分类。此外，论文还首次专门对关键瓶颈进行了分类，重点关注数据收集、利用和泛化，最后对实际应用进行了广泛的回顾。与之前的综述相比，本文提供了更广泛的范围和更深入的见解，为新手提供了一个易于理解的路线图，并为经验丰富的研究人员提供了一个结构化的参考。

🔬 方法详解

问题定义：机器人操作旨在使机器人能够在多样且非结构化的环境中进行交互，需要感知、规划和控制的紧密结合。现有方法在数据收集、利用和泛化方面存在瓶颈，难以适应复杂多变的环境。

核心思路：论文的核心思路是提供一个统一的机器人操作理解框架，通过对现有方法进行全面的分类和分析，揭示其内在联系和局限性。该框架扩展了传统的高层规划和低层控制的划分，并深入探讨了数据瓶颈问题。

技术框架：该综述论文的技术框架主要包括以下几个部分：1) 机器人操作的基础背景介绍；2) 任务导向的基准和数据集整理；3) 现有方法的统一分类，包括高层规划（语言、代码、运动、可供性和3D表示）和低层控制（基于输入建模、潜在学习和策略学习）；4) 关键瓶颈的分类，包括数据收集、利用和泛化；5) 实际应用的回顾。

关键创新：论文最重要的技术创新在于提出了一个更全面的机器人操作分类体系，该体系不仅涵盖了传统的高层规划和低层控制，还考虑了语言、代码等高层信息，以及基于学习的低层控制范式。此外，论文还首次专门对数据收集、利用和泛化等关键瓶颈进行了分类。

关键设计：论文的关键设计在于其分类体系的构建，该体系基于对大量文献的分析和总结，力求全面、准确地反映机器人操作领域的研究现状。论文还对每个类别下的方法进行了详细的描述和比较，并指出了其优缺点。

🖼️ 关键图片

📊 实验亮点

该综述论文通过对大量文献的整理和分析，提供了一个全面的机器人操作理解框架。论文首次对数据收集、利用和泛化等关键瓶颈进行了分类，并对实际应用进行了广泛的回顾。该综述为新手提供了一个易于理解的路线图，并为经验丰富的研究人员提供了一个结构化的参考。

🎯 应用场景

该研究成果可应用于工业自动化、家庭服务机器人、医疗辅助机器人等领域。通过对机器人操作的统一理解，可以促进更智能、更灵活的机器人系统的开发，从而提高生产效率、改善生活质量，并为未来的机器人研究提供指导。

📄 摘要（原文）

Embodied intelligence has witnessed remarkable progress in recent years, driven by advances in computer vision, natural language processing, and the rise of large-scale multimodal models. Among its core challenges, robot manipulation stands out as a fundamental yet intricate problem, requiring the seamless integration of perception, planning, and control to enable interaction within diverse and unstructured environments. This survey presents a comprehensive overview of robotic manipulation, encompassing foundational background, task-organized benchmarks and datasets, and a unified taxonomy of existing methods. We extend the classical division between high-level planning and low-level control by broadening high-level planning to include language, code, motion, affordance, and 3D representations, while introducing a new taxonomy of low-level learning-based control grounded in training paradigms such as input modeling, latent learning, and policy learning. Furthermore, we provide the first dedicated taxonomy of key bottlenecks, focusing on data collection, utilization, and generalization, and conclude with an extensive review of real-world applications. Compared with prior surveys, our work offers both a broader scope and deeper insight, serving as an accessible roadmap for newcomers and a structured reference for experienced researchers. All related resources, including research papers, open-source datasets, and projects, are curated for the community at https://github.com/BaiShuanghao/Awesome-Robotics-Manipulation.

Towards a Unified Understanding of Robot Manipulation: A Comprehensive Survey

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理