OmniEVA: Embodied Versatile Planner via Task-Adaptive 3D-Grounded and Embodiment-aware Reasoning

作者: Yuecheng Liu, Dafeng Chi, Shiguang Wu, Zhanguang Zhang, Yuzheng Zhuang, Bowen Yang, He Zhu, Lingfeng Zhang, Pengwei Xie, David Gamaliel Arcos Bravo, Yingxue Zhang, Jianye Hao, Xingyue Quan

分类: cs.RO, cs.AI, cs.CL, cs.CV

发布日期: 2025-09-11 (更新: 2026-01-28)

备注: Published as a conference paper at ICLR 2026

💡 一句话要点

OmniEVA：通过任务自适应3D grounding和具身感知推理实现通用具身规划

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 具身智能 多模态大语言模型 3D Grounding 具身感知推理 任务规划 机器人 通用机器人 上下文感知

📋 核心要点

现有基于MLLM的具身系统在几何适应性和具身约束方面存在差距，限制了其通用性和实际应用。
OmniEVA通过任务自适应3D Grounding和具身感知推理，实现上下文感知的空间理解和可执行的任务规划。
实验表明，OmniEVA在通用具身推理性能上达到SOTA，并在各种下游任务中表现出强大的泛化能力。

📝 摘要（中文）

多模态大型语言模型（MLLM）的最新进展为具身智能开辟了新的机遇，实现了多模态理解、推理和交互，以及连续的空间决策。然而，目前基于MLLM的具身系统面临两个关键限制。首先是几何适应性差距：仅在2D输入上训练或采用硬编码3D几何注入的模型，要么空间信息不足，要么2D泛化能力受限，导致在具有不同空间需求的任务中适应性较差。其次是具身约束差距：先前的工作常常忽略了真实机器人的物理约束和能力，导致任务计划在理论上有效但实际上不可行。为了解决这些差距，我们引入了OmniEVA——一个具身通用规划器，通过两个关键创新实现高级具身推理和任务规划：（1）任务自适应3D Grounding机制，引入了一个门控路由器，用于基于上下文需求对3D融合进行显式选择性调节，从而实现针对不同具身任务的上下文感知3D Grounding。（2）具身感知推理框架，将任务目标和具身约束联合纳入推理循环，从而产生既面向目标又可执行的规划决策。大量的实验结果表明，OmniEVA不仅实现了最先进的通用具身推理性能，而且在各种下游场景中表现出强大的能力。对一套提出的具身基准（包括原始任务和复合任务）的评估证实了其稳健而通用的规划能力。

🔬 方法详解

问题定义：现有基于多模态大语言模型（MLLM）的具身智能系统，在处理具有不同空间需求的任务时，由于几何适应性不足（模型要么缺乏足够的空间信息，要么2D泛化能力受限）以及忽略了真实机器人的物理约束和能力，导致生成的任务计划在实际中难以执行。因此，需要一种能够适应不同任务空间需求，并考虑机器人自身约束的通用具身规划器。

核心思路：OmniEVA的核心思路是构建一个任务自适应的3D Grounding机制和一个具身感知的推理框架。通过任务自适应的3D Grounding，模型可以根据上下文需求选择性地融合3D信息，从而适应不同的任务空间需求。通过具身感知的推理框架，模型可以将任务目标和机器人的物理约束联合纳入推理循环，从而生成可执行的任务计划。

技术框架：OmniEVA的整体框架包含以下几个主要模块：1) 多模态输入编码器：用于编码视觉、语言等多种模态的输入信息。2) 任务自适应3D Grounding模块：该模块包含一个门控路由器，用于根据上下文需求选择性地融合3D信息。3) 具身感知推理模块：该模块将任务目标和机器人的物理约束联合纳入推理循环，生成可执行的任务计划。4) 动作解码器：将推理得到的计划解码为具体的机器人动作。

关键创新：OmniEVA最重要的技术创新点在于其任务自适应的3D Grounding机制和具身感知的推理框架。任务自适应的3D Grounding机制能够根据上下文需求选择性地融合3D信息，从而适应不同的任务空间需求。具身感知的推理框架能够将任务目标和机器人的物理约束联合纳入推理循环，从而生成可执行的任务计划。这与现有方法中要么缺乏足够的空间信息，要么忽略机器人自身约束形成了本质区别。

关键设计：任务自适应3D Grounding模块中的门控路由器，其门控信号由上下文信息（例如任务描述、历史状态）生成，用于控制3D信息的融合比例。具身感知推理模块中，机器人的物理约束被建模为约束条件，并在推理过程中进行约束满足。损失函数的设计可能包含任务完成的奖励、违反约束的惩罚等，以引导模型学习生成既能完成任务又能满足约束的计划。

🖼️ 关键图片

📊 实验亮点

实验结果表明，OmniEVA在多个具身推理基准测试中取得了state-of-the-art的性能。例如，在复合任务的测试中，OmniEVA的成功率相比于现有方法提升了显著的百分比（具体数值未知，需参考论文原文）。此外，OmniEVA在各种下游场景中表现出强大的泛化能力，证明了其稳健性和通用性。

🎯 应用场景

OmniEVA具有广泛的应用前景，例如家庭服务机器人、工业自动化、医疗辅助机器人等。它可以帮助机器人在复杂环境中完成各种任务，例如物体抓取、导航、装配等。通过不断学习和适应，OmniEVA有望成为未来通用机器人平台的核心组成部分，推动具身智能的发展。

📄 摘要（原文）

Recent advances in multimodal large language models (MLLMs) have opened new opportunities for embodied intelligence, enabling multimodal understanding, reasoning, and interaction, as well as continuous spatial decision-making. Nevertheless, current MLLM-based embodied systems face two critical limitations. First, Geometric Adaptability Gap: models trained solely on 2D inputs or with hard-coded 3D geometry injection suffer from either insufficient spatial information or restricted 2D generalization, leading to poor adaptability across tasks with diverse spatial demands. Second, Embodiment Constraint Gap: prior work often neglects the physical constraints and capacities of real robots, resulting in task plans that are theoretically valid but practically infeasible. To address these gaps, we introduce OmniEVA -- an embodied versatile planner that enables advanced embodied reasoning and task planning through two pivotal innovations: (1) a Task-Adaptive 3D Grounding mechanism, which introduces a gated router to perform explicit selective regulation of 3D fusion based on contextual requirements, enabling context-aware 3D grounding for diverse embodied tasks. (2) an Embodiment-Aware Reasoning framework that jointly incorporates task goals and embodiment constraints into the reasoning loop, resulting in planning decisions that are both goal-directed and executable. Extensive experimental results demonstrate that OmniEVA not only achieves state-of-the-art general embodied reasoning performance, but also exhibits a strong ability across a wide range of downstream scenarios. Evaluations of a suite of proposed embodied benchmarks, including both primitive and composite tasks, confirm its robust and versatile planning capabilities. Project page: https://omnieva.github.io

OmniEVA: Embodied Versatile Planner via Task-Adaptive 3D-Grounded and Embodiment-aware Reasoning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理