Adaptive Collaboration with Humans: Metacognitive Policy Optimization for Multi-Agent LLMs with Continual Learning

作者: Wei Yang, Defu Cao, Jiacheng Pang, Muyan Weng, Yan Liu

分类: cs.AI

发布日期: 2026-03-09

💡 一句话要点

提出人机协同多智能体框架HILA，解决多智能体LLM在开放世界中的知识局限性问题。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 人机协同 多智能体系统 元认知策略 持续学习 策略优化 开放世界 大语言模型

📋 核心要点

现有大规模语言模型的多智能体系统在开放世界中面临知识局限性，难以应对超出训练数据的任务。
HILA框架通过元认知策略，使智能体学会判断何时自主解决问题，何时向人类专家寻求帮助。
双环策略优化方法，通过内环优化求助决策，外环利用人类反馈进行持续学习，提升智能体推理能力。

📝 摘要（中文）

本文提出人机协同多智能体协作框架(HILA)，旨在解决多智能体系统(MAS)在“封闭世界”中受限于预训练模型静态知识的问题。HILA训练智能体学习元认知策略，决定何时自主解决问题，何时求助于人类专家。为此，引入双环策略优化，将即时决策与长期能力增长分离。内环采用带成本意识奖励的群体相对策略优化(GRPO)来优化求助决策，外环实施持续学习，将专家反馈转化为高质量的监督信号，增强智能体的推理能力。在具有挑战性的数学和问题解决基准上的实验表明，配备双环策略优化的HILA始终优于先进的MAS，为协作和持续改进的智能体系统奠定了基础。

🔬 方法详解

问题定义：论文旨在解决多智能体系统在开放世界中，由于预训练模型的知识边界限制，无法有效处理超出训练数据范围的新任务和挑战的问题。现有方法主要依赖于纯自主的多智能体系统，缺乏与人类专家协同的能力，导致在面对复杂或未知问题时容易失败。

核心思路：论文的核心思路是让人工智能体学习一种元认知策略，使其能够根据自身的能力和任务的难度，动态地决定是自主解决问题还是向人类专家寻求帮助。这种策略允许智能体在必要时利用人类的知识和经验，从而突破自身知识的局限性，提高解决问题的能力。

技术框架：HILA框架包含两个主要组成部分：元认知策略学习和双环策略优化。元认知策略学习的目标是训练智能体判断何时需要人类的帮助。双环策略优化则包含一个内环和一个外环。内环使用群体相对策略优化(GRPO)和一个成本敏感的奖励函数来优化智能体的求助决策。外环则利用人类专家的反馈，通过持续学习来提升智能体的推理能力。整体流程是智能体首先尝试自主解决问题，如果元认知策略判断需要帮助，则向人类专家求助，然后利用人类的反馈进行学习和改进。

关键创新：论文的关键创新在于提出了人机协同的多智能体框架HILA，以及双环策略优化方法。HILA框架将人类专家纳入多智能体系统的决策循环中，允许智能体在必要时利用人类的知识和经验。双环策略优化方法则将即时决策（求助决策）与长期能力增长（推理能力）分离，分别进行优化，从而提高了学习效率和效果。

关键设计：内环的GRPO使用成本敏感的奖励函数，鼓励智能体在必要时寻求帮助，但同时也要考虑到求助的成本。外环的持续学习使用人类专家的反馈作为监督信号，通过微调预训练模型来提升智能体的推理能力。具体的网络结构和参数设置在论文中进行了详细描述，例如，元认知策略可能使用一个小型神经网络来预测智能体解决问题的置信度，并根据置信度来决定是否求助。

🖼️ 关键图片

📊 实验亮点

实验结果表明，HILA框架在数学和问题解决基准测试中显著优于现有的多智能体系统。配备双环策略优化的HILA在各项指标上均取得了领先，证明了人机协同和持续学习的有效性。具体的性能提升数据在论文中进行了详细展示。

🎯 应用场景

该研究成果可应用于需要人机协同的复杂任务场景，例如科研探索、智能客服、医疗诊断等。通过让人工智能体学会合理利用人类的知识和经验，可以显著提高解决问题的效率和质量。未来，该框架有望扩展到更多领域，实现更智能、更可靠的人工智能系统。

📄 摘要（原文）

While scaling individual Large Language Models (LLMs) has delivered remarkable progress, the next frontier lies in scaling collaboration through multi-agent systems (MAS). However, purely autonomous MAS remain ''closed-world'' systems, constrained by the static knowledge horizon of pre-trained models. This limitation makes them brittle on tasks requiring knowledge beyond training data, often leading to collective failure under novel challenges. To address this, we propose the Human-In-the-Loop Multi-Agent Collaboration (HILA) framework, a principled paradigm for human--agent collaboration. HILA trains agents to learn a metacognitive policy that governs when to solve problems autonomously and when to defer to a human expert. To operationalize this policy, we introduce Dual-Loop Policy Optimization, which disentangles immediate decision-making from long-term capability growth. The inner loop applies Group Relative Policy Optimization (GRPO) with a cost-aware reward to optimize deferral decisions, while the outer loop implements continual learning, transforming expert feedback into high-quality supervised signals that strengthen the agent's reasoning ability. Experiments on challenging mathematical and problem-solving benchmarks show that HILA, equipped with Dual-Loop Policy Optimization, consistently outperforms advanced MAS, establishing a principled foundation for collaborative and continually improving agentic systems.

Adaptive Collaboration with Humans: Metacognitive Policy Optimization for Multi-Agent LLMs with Continual Learning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理