$π$-Play: Multi-Agent Self-Play via Privileged Self-Distillation without External Data

作者: Yaocheng Zhang, Yuanheng Zhu, Wenyue Chong, Songjun Tu, Qichao Zhang, Jiajun Chai, Xiaohan Wang, Wei Lin, Guojun Yin, Dongbin Zhao

分类: cs.LG, cs.CL

发布日期: 2026-04-15

备注: 26 pages, 12 figures

💡 一句话要点

提出$π$-Play，通过特权自蒸馏实现多智能体自博弈，无需外部数据，提升搜索智能体训练效率。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 自博弈 特权信息 自蒸馏 多智能体 深度搜索 强化学习 无监督学习

📋 核心要点

现有深度搜索智能体训练面临奖励稀疏和数据依赖等问题，限制了其在复杂任务中的应用。
论文提出$π$-Play框架，利用自博弈过程中的问题构建路径（QCP）作为特权信息，进行自蒸馏。
实验表明，$π$-Play在无数据情况下超越了完全监督的智能体，并显著提升了自博弈的效率。

📝 摘要（中文）

深度搜索智能体在解决复杂信息搜索任务中展现出潜力，但其训练面临奖励稀疏、信用分配弱和标注数据有限等挑战。自博弈提供了一种可扩展的减少数据依赖的途径，但传统自博弈仅通过稀疏的结果奖励优化学生模型，导致学习效率低下。本文观察到自博弈在任务生成过程中自然产生问题构建路径（QCP），这是一种捕捉逆向求解过程的中间产物。这揭示了一种新的特权信息来源，用于自蒸馏：自博弈本身可以低成本且可扩展地为教师模型提供高质量的特权上下文，而无需依赖人工反馈或精心设计的特权信息。基于此，我们提出了特权信息自博弈（$π$-Play），一种多智能体自进化框架。在$π$-Play中，考官生成任务及其QCP，教师模型利用QCP作为特权上下文，通过自蒸馏密集地监督学生模型。这种设计将传统的稀疏奖励自博弈转变为密集的反馈自进化循环。大量实验表明，无数据的$π$-Play超越了完全监督的搜索智能体，并且比传统的自博弈提高了2-3倍的进化效率。

🔬 方法详解

问题定义：论文旨在解决深度搜索智能体在训练过程中面临的奖励稀疏、信用分配困难以及对大量标注数据依赖的问题。现有自博弈方法虽然能减少数据依赖，但仅依赖稀疏奖励信号进行学习，导致训练效率低下。

核心思路：论文的核心思路是利用自博弈过程中自然产生的“问题构建路径”（Question Construction Path, QCP）作为一种特权信息，用于指导学生模型的学习。QCP包含了任务生成的逆向求解过程，提供了更丰富的监督信号，从而将稀疏奖励的自博弈转化为密集反馈的自进化过程。

技术框架：$π$-Play框架包含两个主要角色：考官（Examiner）和教师/学生模型（Teacher/Student）。考官负责生成任务及其对应的QCP。教师模型利用QCP作为特权信息，通过自蒸馏的方式密集地监督学生模型的学习。整个过程形成一个自进化循环，教师模型不断提升，并指导学生模型进步。

关键创新：最重要的创新点在于利用自博弈过程本身产生的QCP作为特权信息。传统自蒸馏方法通常依赖人工标注或外部知识库提供特权信息，而$π$-Play无需外部数据，通过自博弈自然产生高质量的特权上下文，降低了训练成本并提高了可扩展性。

关键设计：论文的具体技术细节包括：考官如何生成任务和QCP（具体生成策略未知），教师模型如何利用QCP进行自蒸馏（具体的损失函数和网络结构未知），以及如何平衡教师模型和学生模型的学习进度（具体的训练策略未知）。这些细节对于最终性能至关重要，但论文摘要中并未详细描述。

🖼️ 关键图片

📊 实验亮点

实验结果表明，$π$-Play在无数据的情况下，性能超越了完全监督的搜索智能体。同时，$π$-Play相比于传统的自博弈方法，进化效率提高了2-3倍。这些结果验证了利用自博弈产生的QCP作为特权信息进行自蒸馏的有效性。

🎯 应用场景

$π$-Play框架可应用于各种需要复杂信息搜索和决策的任务，例如智能问答、游戏AI、自动规划等。通过自博弈和特权自蒸馏，该方法能够降低对人工标注数据的依赖，提高智能体的学习效率和泛化能力，具有广泛的应用前景。

📄 摘要（原文）

Deep search agents have emerged as a promising paradigm for addressing complex information-seeking tasks, but their training remains challenging due to sparse rewards, weak credit assignment, and limited labeled data. Self-play offers a scalable route to reduce data dependence, but conventional self-play optimizes students only through sparse outcome rewards, leading to low learning efficiency. In this work, we observe that self-play naturally produces a question construction path (QCP) during task generation, an intermediate artifact that captures the reverse solution process. This reveals a new source of privileged information for self-distillation: self-play can itself provide high-quality privileged context for the teacher model in a low-cost and scalable manner, without relying on human feedback or curated privileged information. Leveraging this insight, we propose Privileged Information Self-Play ($π$-Play), a multi-agent self-evolution framework. In $π$-Play, an examiner generates tasks together with their QCPs, and a teacher model leverages QCP as privileged context to densely supervise a student via self-distillation. This design transforms conventional sparse-reward self-play into a dense-feedback self-evolution loop. Extensive experiments show that data-free $π$-Play surpasses fully supervised search agents and improves evolutionary efficiency by 2-3$\times$ over conventional self-play.

$π$-Play: Multi-Agent Self-Play via Privileged Self-Distillation without External Data

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理