Robo-Cortex: A Self-Evolving Embodied Agent via Dual-Grain Cognitive Memory and Autonomous Knowledge Induction

📄 arXiv: 2605.18729v1 📥 PDF

作者: Nga Teng Chan, Yi Zhang, Yechi Liu, Renwen Cui, Fanhu Zeng, Zeyuan Ding, Xiancong Ren, Zhang Zhang, Qifeng Chen, Jian Liu, Yong Dai, Xiaozhu Ju

分类: cs.RO, cs.CV

发布日期: 2026-05-18


💡 一句话要点

Robo-Cortex:通过双粒度认知记忆和自主知识归纳实现自进化具身智能体

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 具身智能 自主导航 知识归纳 认知记忆 自进化 机器人学习 多模态融合

📋 核心要点

  1. 现有具身智能体在复杂环境中导航时,由于缺乏从过去交互中提炼通用策略的能力,面临“经验性失忆”的挑战。
  2. Robo-Cortex通过自主知识归纳(AKI)机制,将多模态轨迹提炼为导航启发式知识,并结合双粒度认知记忆系统,实现策略的自进化。
  3. 实验表明,Robo-Cortex在多个导航任务中显著优于现有方法,在任务成功率和探索效率上均有提升,并在真实机器人实验中验证了有效性。

📝 摘要(中文)

本文提出Robo-Cortex,一个自进化框架,使机器人能够通过持续的反思-适应循环自主地归纳导航启发式规则并改进认知策略。该框架通过将成功模式和失败陷阱抽象为自然语言启发式规则,实现了从被动执行到主动策略演进的转变。核心创新是自主知识归纳(AKI)机制,它将多模态轨迹提炼成结构化的导航启发式库,用于知识泛化。该架构还包含一个双粒度认知记忆系统,包括用于实时局部进度分析的短期反思记忆(SRM)和将过去轨迹抽象为可重用指导和告诫原则的长期原则记忆(LPM)。为了确保稳健的决策,引入了一个多模态的“想象-然后-验证”循环,其中世界模型模拟潜在结果,而基于VLM的评估器验证行动计划。在IGNav、AR和AEQA上的大量评估表明,Robo-Cortex在任务成功率和探索效率方面始终优于强大的基线,与最强的方法相比,SPL提高了高达+4.16%,在启发式转移到未见环境时,SPL提高了高达+15.30%。初步的真实机器人实验进一步支持了Robo-Cortex在物理环境中的有效性。

🔬 方法详解

问题定义:现有基于轨迹或反应式的具身智能体导航策略,难以从过去的交互中提取通用的导航策略,导致在未见过的环境中表现不佳,存在“经验性失忆”问题。如何让机器人能够自主学习和进化导航策略,是本文要解决的核心问题。

核心思路:Robo-Cortex的核心思路是通过一个持续的反思-适应循环,让机器人能够从过去的经验中学习,并将这些经验抽象成可重用的导航启发式知识。通过自主知识归纳(AKI)机制,将多模态轨迹提炼成结构化的导航启发式库,从而实现知识的泛化和迁移。

技术框架:Robo-Cortex的整体架构包含以下几个主要模块:1) 自主知识归纳(AKI):将多模态轨迹提炼成导航启发式库。2) 双粒度认知记忆系统:包括短期反思记忆(SRM)和长期原则记忆(LPM),分别用于实时局部进度分析和抽象过去轨迹为可重用原则。3) “想象-然后-验证”循环:使用世界模型模拟潜在结果,并使用基于VLM的评估器验证行动计划。整个流程形成一个闭环,不断反思和改进导航策略。

关键创新:Robo-Cortex的关键创新在于自主知识归纳(AKI)机制和双粒度认知记忆系统。AKI机制能够将复杂的轨迹数据转化为易于理解和使用的导航启发式知识,而双粒度认知记忆系统则能够有效地存储和检索这些知识,从而支持机器人的自主学习和进化。

关键设计:在AKI机制中,使用了多模态数据融合技术,将视觉、语言和运动信息结合起来,以更全面地理解环境和任务。在双粒度认知记忆系统中,SRM使用滑动窗口来捕捉短期内的变化,而LPM则使用聚类算法来抽象长期趋势。在“想象-然后-验证”循环中,世界模型使用了Transformer架构,VLM评估器使用了CLIP模型。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Robo-Cortex在IGNav、AR和AEQA等多个导航任务中取得了显著的性能提升。与最强基线相比,SPL指标提高了高达4.16%,在启发式知识迁移到未见环境时,SPL指标提高了高达15.30%。此外,初步的真实机器人实验也验证了Robo-Cortex在物理环境中的有效性。

🎯 应用场景

Robo-Cortex具有广泛的应用前景,可应用于家庭服务机器人、工业巡检机器人、自动驾驶等领域。通过自主学习和进化,机器人能够更好地适应复杂和动态的环境,提高任务完成效率和安全性。该研究为实现更智能、更自主的机器人系统奠定了基础。

📄 摘要(原文)

The ability to navigate and interact with complex environments is central to real-world embodied agents, yet navigation in unseen environments remains challenging due to "experiential amnesia," where existing trajectory-driven or reactive policies fail to synthesize generalizable strategies from past interactions. We propose Robo-Cortex, a self-evolving framework that enables robots to autonomously induce navigation heuristics and refine cognitive strategies through a continuous reflection-adaptation loop. By abstracting success patterns and failure pitfalls into natural-language heuristics, Robo-Cortex enables a transition from passive execution to active strategy evolution. Our core innovation is an Autonomous Knowledge Induction (AKI) mechanism that distills multimodal trajectories into a structured Navigation Heuristic Library for knowledge generalization. The architecture further incorporates a Dual-Grain Cognitive Memory system, comprising a Short-term Reflective Memory (SRM) for real-time local progress analysis, and a Long-term Principle Memory (LPM) that abstracts past trajectories into reusable guiding and cautionary principles. To ensure robust decision-making, we introduce a multimodal Imagine-then-Verify loop, where a world model simulates potential outcomes and a VLM-based evaluator validates action plans. Extensive evaluations on IGNav, AR, and AEQA show that Robo-Cortex consistently outperforms strong baselines in both task success and exploration efficiency, with gains of up to +4.16% SPL over the strongest prior method and up to +15.30% SPL under heuristic transfer to unseen environments. Preliminary real-world robotic experiments further support the effectiveness of Robo-Cortex in physical settings.