Artificial Agency Program: Curiosity, compression, and communication in agents

📄 arXiv: 2602.24100v1 📥 PDF

作者: Richard Csaky

分类: cs.AI, cs.LG

发布日期: 2026-02-27

备注: This is a working draft. Feedback and criticism is most welcome


💡 一句话要点

提出人工代理程序(AAP),通过好奇心驱动的智能体学习,构建现实嵌入、资源受限的AI系统。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 人工代理 好奇心驱动 资源受限 多模态学习 信息瓶颈

📋 核心要点

  1. 现有AI系统在现实世界交互中面临资源限制和环境复杂性挑战,难以实现自主学习和有效决策。
  2. AAP通过好奇心驱动的学习,结合预测压缩、内在动机等机制,构建资源受限但具有自主性的智能体。
  3. AAP提供了一个多模态测试平台,用于评估智能体在观察、行动和思考之间进行资源分配的能力。

📝 摘要(中文)

本文提出了人工代理程序(AAP),这是一个构建AI系统的立场和研究议程,该系统是现实嵌入的、资源受限的智能体,其发展受到物理和计算约束下好奇心驱动的学习进度的推动。中心论点是,当AI被视为扩展的人-工具系统的一部分时,它最有用,该系统提高了感知、理解和驱动能力,同时减少了人、工具和环境之间接口的摩擦。该议程统一了预测压缩、内在动机、赋权和控制、接口质量(统一)以及语言/自我交流作为选择性信息瓶颈。我们将这些想法表述为一个可证伪的程序,具有明确的成本、分阶段的实验和一个具体的多模态token化测试平台,在该平台中,智能体在观察、行动和审议之间分配有限的预算。目的是提供一个概念和实验框架,将内在动机、信息论、热力学、有限理性以及现代推理系统联系起来。

🔬 方法详解

问题定义:现有AI系统在现实世界环境中,往往面临计算资源有限、感知信息复杂、以及行动空间庞大等挑战。传统的AI方法难以在这些约束条件下实现有效的自主学习和决策。特别是在人机交互场景下,如何减少人、工具和环境之间的摩擦,提升整体系统的效率和用户体验,是一个亟待解决的问题。

核心思路:AAP的核心思路是将AI智能体视为一个现实嵌入、资源受限的个体,其行为受到好奇心驱动,即通过最大化学习进度来优化其行动策略。这种好奇心可以理解为智能体对未知信息的探索欲望,促使其主动学习和适应环境。同时,AAP强调信息瓶颈的重要性,通过选择性地压缩和传递信息,提高智能体的效率和鲁棒性。

技术框架:AAP的技术框架包含以下几个主要模块:1) 感知模块:负责从多模态环境中获取信息,例如视觉、听觉和触觉等。2) 预测模块:基于历史数据预测未来状态,并计算预测误差。3) 行动模块:根据预测误差和内在动机,选择合适的行动。4) 资源分配模块:在观察、行动和思考之间分配有限的计算资源。5) 通信模块:与其他智能体或人类进行交流,传递信息和协调行动。

关键创新:AAP的关键创新在于将好奇心作为一种内在动机,驱动智能体进行自主学习和探索。与传统的基于奖励的强化学习方法不同,AAP不需要预先定义明确的奖励函数,而是通过最大化学习进度来引导智能体的行为。此外,AAP还强调信息瓶颈的作用,通过选择性地压缩和传递信息,提高智能体的效率和鲁棒性。

关键设计:AAP的关键设计包括:1) 使用预测压缩技术来衡量学习进度,例如通过最小化预测误差来评估智能体的学习效果。2) 设计一个多模态token化测试平台,用于评估智能体在不同任务中的表现。3) 采用信息论和热力学原理来约束智能体的行为,例如通过限制信息传递的带宽来模拟资源约束。

📊 实验亮点

AAP提出了一个多模态token化测试平台,用于评估智能体在观察、行动和思考之间进行资源分配的能力。该平台可以模拟真实世界环境的复杂性和不确定性,为智能体的训练和评估提供了一个有效的工具。具体的性能数据和对比基线未知,但该平台为后续研究提供了一个标准化的实验环境。

🎯 应用场景

AAP的研究成果可应用于机器人、智能助手、自动驾驶等领域。通过构建具有自主学习能力的智能体,可以提升机器人在复杂环境中的适应性和鲁棒性,实现更高效的人机协作。此外,AAP还可以用于开发更智能的推荐系统和个性化学习平台,根据用户的兴趣和学习进度,提供定制化的服务。

📄 摘要(原文)

This paper presents the Artificial Agency Program (AAP), a position and research agenda for building AI systems as reality embedded, resource-bounded agents whose development is driven by curiosity-as-learning-progress under physical and computational constraints. The central thesis is that AI is most useful when treated as part of an extended human--tool system that increases sensing, understanding, and actuation capability while reducing friction at the interface between people, tools, and environments. The agenda unifies predictive compression, intrinsic motivation, empowerment and control, interface quality (unification), and language/self-communication as selective information bottlenecks. We formulate these ideas as a falsifiable program with explicit costs, staged experiments, and a concrete multimodal tokenized testbed in which an agent allocates limited budget among observation, action, and deliberation. The aim is to provide a conceptual and experimental framework that connects intrinsic motivation, information theory, thermodynamics, bounded rationality, and modern reasoning systems