Synthesizing Evolving Symbolic Representations for Autonomous Systems

📄 arXiv: 2409.11756v1 📥 PDF

作者: Gabriele Sartor, Angelo Oddi, Riccardo Rasconi, Vieri Giuliano Santucci, Rosa Meo

分类: cs.AI, cs.SC

发布日期: 2024-09-18

期刊: Prog.Artif.Intell.(2025)

DOI: 10.1007/s13748-025-00394-9


💡 一句话要点

提出一种基于PPDDL表示的自主系统,通过内在动机驱动的探索实现知识的持续演化与抽象。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 自主系统 开放式学习 内在动机 PPDDL 知识表示 深度强化学习

📋 核心要点

  1. 现有DRL方法缺乏对智能体学习知识的有效抽象,难以理解和利用智能体所学。
  2. 提出一种开放式学习系统,将智能体的经验综合成PPDDL表示,并随时间更新,实现知识的持续演化。
  3. 该系统通过内在动机驱动的探索,迭代地发现选项、探索环境、抽象知识和进行规划,形成良性循环。

📝 摘要(中文)

近年来,人工智能系统在各种任务中取得了显著进展。深度强化学习(DRL)是智能体在低级状态空间中学习策略以解决高度复杂任务的有效工具。研究人员将内在动机(IM)引入强化学习机制,模拟智能体的好奇心,鼓励智能体探索有趣的环境区域。这一新特性已被证明对于使智能体在没有特定目标的情况下学习策略至关重要。然而,即使DRL智能通过亚符号模型涌现,仍然需要某种抽象来理解智能体收集的知识。为此,最近的研究中使用经典规划形式主义来显式地表示自主智能体获得的知识,并有效地达到外在目标。尽管经典规划通常表现出有限的表达能力,但PPDDL已证明在审查自主系统收集的知识、明确因果关系方面非常有用,并且可以被利用来找到达到智能体在其经验中面临的任何状态的计划。这项工作提出了一种新的架构,该架构实现了一个开放式学习系统,能够从头开始将其经验综合成PPDDL表示,并随着时间的推移对其进行更新。在没有预定义的目标和任务的情况下,该系统集成了内在动机,以自我导向的方式探索环境,利用在其经验中获得的高级知识。该系统探索环境并迭代地:(a)发现选项,(b)使用选项探索环境,(c)抽象收集的知识,以及(d)规划。本文提出了一种替代方法来实现开放式学习架构,利用低级和高级表示来扩展其在良性循环中的知识。

🔬 方法详解

问题定义:现有深度强化学习方法虽然在复杂任务中表现出色,但其学习到的知识通常以亚符号的形式存在,缺乏可解释性和可操作性。如何将智能体学习到的知识进行有效抽象,并用于指导后续的探索和规划,是一个重要的挑战。现有方法难以将低层次的感知信息转化为高层次的符号表示,从而限制了智能体的泛化能力和推理能力。

核心思路:论文的核心思路是将智能体的经验转化为PPDDL(Probabilistic Planning Domain Definition Language)表示,PPDDL是一种概率规划语言,可以显式地表示智能体的知识和行为。通过将经验转化为PPDDL,智能体可以利用规划算法来生成行动序列,从而实现目标导向的行为。此外,论文还引入了内在动机机制,鼓励智能体探索未知的环境区域,从而不断扩展其知识库。

技术框架:该系统的整体架构包含以下几个主要模块:(1) 选项发现模块:用于发现环境中可利用的选项(即子策略)。(2) 探索模块:利用发现的选项,通过内在动机驱动的探索,收集环境中的经验。(3) 知识抽象模块:将收集到的经验抽象成PPDDL表示,包括状态、动作、概率转移等。(4) 规划模块:利用PPDDL模型,进行规划,生成达到目标的行动序列。整个流程是一个迭代的过程,智能体不断探索环境、抽象知识、进行规划,从而不断扩展其知识库和能力。

关键创新:该论文的关键创新在于将内在动机驱动的探索与PPDDL知识表示相结合,实现了一个开放式的学习系统。与传统的强化学习方法相比,该系统能够显式地表示智能体的知识,并利用规划算法来生成行动序列。此外,该系统还能够通过内在动机驱动的探索,不断扩展其知识库,从而提高其泛化能力和适应能力。

关键设计:论文中没有详细描述具体的参数设置、损失函数或网络结构。但可以推断,选项发现模块可能使用了某种聚类算法或策略梯度方法来发现有用的子策略。知识抽象模块可能使用了某种统计学习方法来估计状态转移概率。内在动机的设计可能采用了基于预测误差或信息增益的方法,鼓励智能体探索未知的环境区域。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文主要提出了一个框架,并没有给出具体的实验数据。但是,该框架的创新性在于将内在动机驱动的探索与PPDDL知识表示相结合,为构建开放式的学习系统提供了一种新的思路。未来的研究可以进一步验证该框架在实际应用中的性能,并与其他强化学习方法进行比较。

🎯 应用场景

该研究成果可应用于机器人自主导航、游戏AI、智能决策等领域。通过将智能体的经验转化为可解释的符号表示,可以提高智能体的可信度和可控性。此外,该方法还可以用于构建开放式的学习系统,使智能体能够不断学习和适应新的环境。

📄 摘要(原文)

Recently, AI systems have made remarkable progress in various tasks. Deep Reinforcement Learning(DRL) is an effective tool for agents to learn policies in low-level state spaces to solve highly complex tasks. Researchers have introduced Intrinsic Motivation(IM) to the RL mechanism, which simulates the agent's curiosity, encouraging agents to explore interesting areas of the environment. This new feature has proved vital in enabling agents to learn policies without being given specific goals. However, even though DRL intelligence emerges through a sub-symbolic model, there is still a need for a sort of abstraction to understand the knowledge collected by the agent. To this end, the classical planning formalism has been used in recent research to explicitly represent the knowledge an autonomous agent acquires and effectively reach extrinsic goals. Despite classical planning usually presents limited expressive capabilities, PPDDL demonstrated usefulness in reviewing the knowledge gathered by an autonomous system, making explicit causal correlations, and can be exploited to find a plan to reach any state the agent faces during its experience. This work presents a new architecture implementing an open-ended learning system able to synthesize from scratch its experience into a PPDDL representation and update it over time. Without a predefined set of goals and tasks, the system integrates intrinsic motivations to explore the environment in a self-directed way, exploiting the high-level knowledge acquired during its experience. The system explores the environment and iteratively: (a) discover options, (b) explore the environment using options, (c) abstract the knowledge collected and (d) plan. This paper proposes an alternative approach to implementing open-ended learning architectures exploiting low-level and high-level representations to extend its knowledge in a virtuous loop.