Safactory: A Scalable Agentic Infrastructure for Training Trustworthy Autonomous Intelligence

作者: Xinquan Chen, Zhenyun Yin, Shan He, Bin Huang, Shanzhe Lei, Pengcheng Shi, Kun Cai, Bei Chen, Bangwei Liu, Zeyu Kang, Chao Huang, Yang Zhang, Wenjie Li, Ruijun Ge, Yajie Wang, Tianshun Fang, Tianyang Xu, Yiwen Cong, Meng Jin, Gaolei Li, Xuansheng Wu, Linhan Liu, Zijing He, An Li, Yan Teng, Xin Tan, Dongrui Liu, Jing Shao, ChaoChao Lu, Ji He, Jie Li, Chunfeng Song, Jinya Xu, Fan Song, Shujie Wang, Jianmin Qian, Jie Hou, Xuhong Wang, Yingchun Wang, Hui Wang, Xia Hu

分类: cs.AI, cs.DC

发布日期: 2026-05-07 (更新: 2026-05-08)

备注: 50 pages, 21 figures

💡 一句话要点

提出Safactory框架，构建可扩展的智能体工厂以实现可信自主智能的闭环演进

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 自主智能体 强化学习 闭环演进 并行仿真 策略蒸馏 可信人工智能 长程决策

📋 核心要点

现有智能体基础设施在评估、数据管理和模型演进方面高度碎片化，导致难以系统性地识别风险并实现持续的闭环优化。
Safactory通过集成并行仿真、可信数据管理和自主演进三个核心平台，构建了一个统一的闭环演进流水线。
该框架旨在解决长程决策与复杂环境交互中的可靠性问题，为下一代可信自主智能体的规模化训练提供基础设施支持。

📝 摘要（中文）

随着大模型从对话助手向自主智能体演进，长程决策、工具使用及真实环境交互带来的挑战日益凸显。现有的智能体基础设施在评估、数据管理及模型演进方面处于碎片化状态，难以系统性地发现风险并实现模型的持续闭环优化。为此，本报告提出了Safactory，这是一个用于可信自主智能的可扩展智能体工厂。Safactory集成了三个紧密耦合的平台：用于轨迹生成的并行仿真平台、用于轨迹存储与经验提取的可信数据平台，以及用于异步强化学习与在线策略蒸馏的自主演进平台。据我们所知，Safactory是首个为下一代可信自主智能提供统一演进流水线的框架。

🔬 方法详解

问题定义：论文旨在解决自主智能体在长程决策、工具调用及复杂环境交互中面临的可靠性与演进难题。现有方法缺乏统一的闭环系统，导致数据利用率低、风险发现滞后且模型迭代缓慢。

核心思路：Safactory的核心思想是将智能体的训练过程视为一个工业化的“工厂”流水线，通过将仿真、数据处理与强化学习演进紧密耦合，实现从轨迹生成到模型更新的自动化闭环。

技术框架：系统包含三大核心模块：1. 并行仿真平台，负责大规模生成智能体交互轨迹；2. 可信数据平台，负责轨迹的存储、清洗与高质量经验提取；3. 自主演进平台，利用异步强化学习与在线策略蒸馏技术，实现智能体能力的持续迭代。

关键创新：首次提出了针对自主智能体的统一演进流水线，打破了仿真与训练之间的壁垒，实现了从数据闭环到模型自主进化的全链路集成，显著提升了智能体在复杂任务中的可信度。

关键设计：采用了异步强化学习架构以支持大规模并行训练，并引入了在线策略蒸馏机制，确保模型在吸收新经验的同时保持稳定性，通过可信数据筛选机制过滤低质量轨迹，保障演进过程的安全性与有效性。

🖼️ 关键图片

📊 实验亮点

Safactory通过统一的流水线显著提升了智能体的训练效率与决策鲁棒性。实验表明，该框架在长程任务成功率上优于传统离线训练方法，通过异步强化学习与在线蒸馏的结合，模型在复杂环境下的交互稳定性与任务完成质量均有显著提升，有效缩短了从风险发现到模型修复的周期。

🎯 应用场景

Safactory适用于需要高可靠性与复杂决策能力的领域，如自动驾驶、机器人控制、自动化软件工程及企业级智能流程自动化。其闭环演进能力可显著降低智能体在真实世界部署中的风险，推动自主智能从实验室走向大规模工业化应用。

📄 摘要（原文）

As large models evolve from conversational assistants into autonomous agents, challenges increasingly arise from long-horizon decision making, tool use, and real environment interaction. Existing agenticinfrastructure remain fragmented across evaluation, data management, and agent evolution, making it difficult to discover risks systematically and improve models in a continuous closed loop. In this report, we present \textbf{Safactory}, a scalable agent factory for trustworthy autonomous intelligence. Safactory integrates three tightly coupled platforms: a \textbf{Parallel Simulation Platform} for trajectory generation, a \textbf{Trustworthy Data Platform} for trajectory storage and experience extraction, and an \textbf{Autonomous Evolution Platform} for asynchronous reinforcement learning and on-policy distillation. As far as we know, Safactory is the first framework to propose a unified evolutionary pipeline for next-generation trustworthy autonomous intelligence.

Safactory: A Scalable Agentic Infrastructure for Training Trustworthy Autonomous Intelligence

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理