RobotEQ: Transitioning from Passive Intelligence to Active Intelligence in Embodied AI
作者: Kuofei Fang, Xinyi Che, Haomin Ouyang, Shufan Zhang, Xuehao Wang, Qi Liu, Liyi Liu, Chenqi Zhang, Wenxi Cai, Wenyu Dai, Jinyang Wu, Fan Zhang, Haoyu Chen, Bin He, Zheng Lian
分类: cs.RO, cs.HC
发布日期: 2026-05-07
💡 一句话要点
RobotEQ:构建具身AI主动智能基准,评估模型在社会规范理解与遵守能力
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱六:视频提取与匹配 (Video Extraction) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 具身AI 主动智能 社会规范 基准数据集 RAG 知识库 动作判断 空间定位
📋 核心要点
- 现有具身AI主要依赖显式指令,缺乏在无指令下理解和遵守社会规范的主动智能。
- RobotEQ基准旨在评估模型在具身场景中理解和遵守社会规范的能力,推动AI从被动到主动的转变。
- 实验表明现有模型在主动智能方面存在不足,但结合RAG技术利用外部知识库可提升性能。
📝 摘要(中文)
具身AI是学术界和工业界的研究热点。目前的研究主要集中在基于明确用户指令完成任务。然而,为了使机器人融入人类社会,它们必须理解哪些行为是被允许的,哪些是被禁止的,即使没有明确的命令。我们将用户引导的AI称为被动智能,将无引导的AI称为主动智能。本文介绍了RobotEQ,这是第一个主动智能基准,旨在评估现有模型是否能够理解和遵守具身场景中的社会规范。首先,我们构建了RobotEQ-Data,一个包含1900张第一人称视角的图像数据集,涵盖10个代表性的具身类别和56个子类别。通过大量的人工标注,我们提供了5353个动作判断问题和1286个空间定位问题,指定了不同场景下适当的机器人动作。此外,我们建立了RobotEQ-Bench来评估最先进模型在此任务上的性能。实验结果表明,当前模型在实现可靠的主动智能方面仍然不足,尤其是在空间定位方面。同时,我们观察到,利用RAG技术整合外部社会规范知识库通常可以提高性能。这项工作可以促进机器人从用户引导的被动操作到主动社会合规的转变。
🔬 方法详解
问题定义:现有具身AI系统主要依赖于用户提供的明确指令来执行任务,缺乏在没有明确指令的情况下理解和遵守社会规范的能力。这种被动智能限制了机器人在复杂社会环境中的应用。因此,需要解决的问题是如何让机器人具备主动智能,即在没有明确指令的情况下,能够根据场景理解社会规范并做出适当的行为。
核心思路:RobotEQ的核心思路是构建一个基准数据集和评估框架,用于评估模型在具身场景中理解和遵守社会规范的能力。通过提供包含大量场景图像、动作判断问题和空间定位问题的数据集,以及相应的评估指标,可以系统地评估不同模型的主动智能水平。此外,探索利用外部知识库(如社会规范知识库)来提升模型性能。
技术框架:RobotEQ包含两个主要组成部分:RobotEQ-Data和RobotEQ-Bench。RobotEQ-Data是一个包含1900张第一人称视角的图像数据集,涵盖10个具身类别和56个子类别,并标注了5353个动作判断问题和1286个空间定位问题。RobotEQ-Bench是一个评估框架,用于评估模型在RobotEQ-Data上的性能。该框架提供了一系列评估指标,用于衡量模型在动作判断和空间定位方面的准确性。同时,论文还探索了利用RAG(Retrieval-Augmented Generation)技术,从外部社会规范知识库中检索相关信息,并将其融入到模型中,以提升模型性能。
关键创新:RobotEQ的主要创新在于:1) 首次提出了主动智能的概念,并将其应用于具身AI领域;2) 构建了第一个用于评估具身AI主动智能的基准数据集和评估框架;3) 探索了利用RAG技术整合外部知识库来提升模型性能的方法。与现有方法相比,RobotEQ更加关注机器人在没有明确指令的情况下理解和遵守社会规范的能力,从而推动了具身AI从被动智能向主动智能的转变。
关键设计:RobotEQ-Data的数据标注过程采用了精细化的人工标注,确保了数据的质量和准确性。动作判断问题要求模型判断在给定场景下执行某个动作是否合适,空间定位问题要求模型指出执行某个动作的合适位置。RAG技术中,使用了预训练的语言模型来编码场景图像和问题,并使用相似度搜索从外部知识库中检索相关信息。检索到的信息被用于增强模型的输入,从而提升模型在动作判断和空间定位方面的准确性。具体参数设置和网络结构细节在论文中未详细说明,属于未知信息。
🖼️ 关键图片
📊 实验亮点
实验结果表明,现有模型在RobotEQ基准上的性能仍有待提高,尤其是在空间定位方面。然而,通过利用RAG技术整合外部社会规范知识库,模型的性能得到了显著提升。这表明,结合外部知识是提升具身AI主动智能的关键途径。具体的性能数据和提升幅度在论文中未详细说明,属于未知信息。
🎯 应用场景
RobotEQ的研究成果可应用于开发更智能、更安全的机器人助手,使其能够在家庭、办公室等复杂环境中自主行动,并遵守社会规范。例如,机器人可以根据场景判断是否应该进入某个房间,或者在厨房中安全地操作电器。这项研究有助于推动机器人技术在医疗、教育、养老等领域的应用,提升人类的生活质量。
📄 摘要(原文)
Embodied AI is a prominent research topic in both academia and industry. Current research centers on completing tasks based on explicit user instructions. However, for robots to integrate into human society, they must understand which actions are permissible and which are prohibited, even without explicit commands. We refer to the user-guided AI as passive intelligence and the unguided AI as active intelligence. This paper introduces RobotEQ, the first benchmark for active intelligence, aiming to assess whether existing models can comprehend and adhere to social norms in embodied scenarios. First, we construct RobotEQ-Data, a dataset consisting of 1,900 egocentric images, spanning 10 representative embodied categories and 56 subcategories. Through extensive manual annotation, we provide 5,353 action judgment questions and 1,286 spatial grounding questions, specifying appropriate robot actions across diverse scenarios. Furthermore, we establish RobotEQ-Bench to evaluate the performance of state-of-the-art models on this task. Experimental results show that current models still fall short in achieving reliable active intelligence, particularly in spatial grounding. Meanwhile, we observe that leveraging RAG techniques to incorporate external social norm knowledge bases can generally enhance performance. This work can facilitate the transition of robotics from user-guided passive manipulation to active social compliance.