Audited Skill-Graph Self-Improvement for Agentic LLMs via Verifiable Rewards, Experience Synthesis, and Continual Memory

📄 arXiv: 2512.23760v1 📥 PDF

作者: Ken Huang, Jerry Huang

分类: cs.CR, cs.AI

发布日期: 2025-12-28

备注: 11 pages, 4 figures. Includes a complete runnable reference implementation and audit logging framework


💡 一句话要点

提出ASG-SI框架,通过可验证技能图自提升Agentic LLM的安全性与可控性

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: Agentic LLM 自提升 技能图 可验证奖励 经验综合 持续内存 安全AI 强化学习

📋 核心要点

  1. 现有自提升Agentic LLM存在奖励黑客、行为漂移等安全和治理挑战,且改进通常与不透明的参数更新纠缠在一起。
  2. ASG-SI框架将自提升过程转化为可审计技能图的迭代编译,通过验证器支持的回放和合约检查来确保技能的安全性。
  3. 该框架集成了经验综合和持续内存控制,以进行可扩展的压力测试,并在有限上下文中保持长期性能。

📝 摘要(中文)

本文提出了一种名为Audited Skill-Graph Self-Improvement (ASG-SI) 的框架,旨在解决Agentic LLM在自提升过程中面临的安全和治理挑战。ASG-SI将自提升视为将Agent迭代编译成一个不断增长且可审计的技能图的过程。每个候选改进都从成功的轨迹中提取,标准化为具有显式接口的技能,并在通过验证器支持的回放和合约检查后才被推广。奖励被分解为可从可重放证据中导出的可重构组件,从而可以独立审计推广决策和学习信号。ASG-SI还集成了经验综合以进行可扩展的压力测试,并集成了持续内存控制以在有限的上下文中保持长期的性能。本文提出了完整的系统架构、威胁模型和安全分析,并提供了一个完全可运行的参考实现,该实现演示了验证器支持的奖励构建、技能编译、审计日志记录以及在持续任务流下的可衡量改进。ASG-SI将Agentic自提升重新定义为可验证、可重用能力的积累,为自提升AI Agent的可重现评估和运营治理提供了一条切实可行的途径。

🔬 方法详解

问题定义:现有基于强化学习的Agentic LLM自提升方法面临安全和治理挑战,例如奖励黑客攻击、行为漂移难以审计和复现,以及改进与不透明的参数更新耦合。这些问题阻碍了自提升Agent的可靠部署和管理。

核心思路:ASG-SI的核心思路是将Agent的自提升过程视为一个迭代构建和优化可审计技能图的过程。每个技能都代表Agent的一项特定能力,并具有明确定义的接口。通过对技能进行验证和审计,可以确保Agent的行为符合预期,并防止出现恶意行为。这种模块化的方法使得Agent的改进更加透明和可控。

技术框架:ASG-SI框架包含以下主要模块:1) 经验收集:Agent在环境中执行任务,并记录成功的轨迹。2) 技能提取:从成功的轨迹中提取候选技能,并将其标准化为具有显式接口的模块。3) 技能验证:使用验证器对候选技能进行回放和合约检查,以确保其安全性和有效性。4) 技能推广:通过验证的技能被添加到技能图中,并用于改进Agent的行为。5) 奖励分解与审计:奖励被分解为可重构的组件,并进行独立审计,以确保奖励信号的正确性。6) 经验综合:使用经验综合技术生成新的测试用例,以对Agent进行压力测试。7) 持续内存控制:使用持续内存控制技术来管理Agent的长期记忆,并防止上下文漂移。

关键创新:ASG-SI的关键创新在于将自提升过程转化为可审计技能图的构建,并引入了验证器支持的回放和合约检查机制。这使得Agent的改进更加透明、可控和安全。此外,ASG-SI还集成了经验综合和持续内存控制技术,以提高Agent的鲁棒性和长期性能。

关键设计:ASG-SI的关键设计包括:1) 技能接口的定义:技能接口需要明确定义技能的输入、输出和副作用。2) 验证器的设计:验证器需要能够有效地验证技能的安全性和有效性。3) 奖励分解策略:奖励分解策略需要能够将奖励分解为可重构的组件,并进行独立审计。4) 经验综合策略:经验综合策略需要能够生成具有挑战性的测试用例,以对Agent进行压力测试。5) 持续内存控制机制:持续内存控制机制需要能够有效地管理Agent的长期记忆,并防止上下文漂移。

📊 实验亮点

该论文提供了一个完全可运行的参考实现,演示了验证器支持的奖励构建、技能编译、审计日志记录以及在持续任务流下的可衡量改进。实验结果表明,ASG-SI框架可以有效地提高Agent的性能,同时确保其安全性和可控性。具体性能数据和对比基线在论文中进行了详细描述(具体数值未知)。

🎯 应用场景

ASG-SI框架可应用于各种需要安全和可控的自提升Agent的场景,例如金融交易、医疗诊断和自动驾驶。通过确保Agent的行为符合预期,并防止出现恶意行为,ASG-SI可以提高这些系统的可靠性和安全性,并促进其在实际应用中的部署。

📄 摘要(原文)

Reinforcement learning is increasingly used to transform large language models into agentic systems that act over long horizons, invoke tools, and manage memory under partial observability. While recent work has demonstrated performance gains through tool learning, verifiable rewards, and continual training, deployed self-improving agents raise unresolved security and governance challenges: optimization pressure can incentivize reward hacking, behavioral drift is difficult to audit or reproduce, and improvements are often entangled in opaque parameter updates rather than reusable, verifiable artifacts. This paper proposes Audited Skill-Graph Self-Improvement (ASG-SI), a framework that treats self-improvement as iterative compilation of an agent into a growing, auditable skill graph. Each candidate improvement is extracted from successful trajectories, normalized into a skill with an explicit interface, and promoted only after passing verifier-backed replay and contract checks. Rewards are decomposed into reconstructible components derived from replayable evidence, enabling independent audit of promotion decisions and learning signals. ASG-SI further integrates experience synthesis for scalable stress testing and continual memory control to preserve long-horizon performance under bounded context. We present a complete system architecture, threat model, and security analysis, and provide a fully runnable reference implementation that demonstrates verifier-backed reward construction, skill compilation, audit logging, and measurable improvement under continual task streams. ASG-SI reframes agentic self-improvement as accumulation of verifiable, reusable capabilities, offering a practical path toward reproducible evaluation and operational governance of self-improving AI agents.