Exploring Autonomous Agentic Data Engineering for Model Specialization

作者: Yujie Luo, Xiangyuan Ru, Jingsheng Zheng, Jingjing Wang, Yuqi Zhu, Jintian Zhang, Runnan Fang, Kewei Xu, Ye Liu, Zheng Wei, Jiang Bian, Zang Li, Shumin Deng

分类: cs.CL, cs.AI, cs.IR, cs.LG

发布日期: 2026-05-28

备注: Work in progress

🔗 代码/项目: GITHUB

💡 一句话要点

提出自主代理数据工程以解决模型专业化问题

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 自主数据工程 大型语言模型 模型专业化 数据策划 性能提升

📋 核心要点

现有的LLM数据策划方法依赖人工设计，缺乏自主执行数据工程的能力，限制了模型在专业领域的适应性。
本文提出自主代理数据工程，旨在让LLM作为自主数据工程师，通过优化训练数据来推动模型的专业化。
实验结果显示，GPT-5.2通过迭代的数据适应使学生模型性能提升了57.29%，展示了自主数据工程的有效性。

📝 摘要（中文）

大型语言模型（LLMs）在通用任务上表现优异，但在专业领域的适应性较差，往往依赖高质量的领域特定数据。现有基于LLM的数据策划方法主要依赖人工设计的工作流程，尚未探讨LLM是否能够自主执行端到端的数据工程管道以实现模型专业化。本文正式提出了自主代理数据工程这一新任务，旨在评估LLM作为自主数据工程师的能力，通过端到端的数据策划推动模型专业化。实验表明，自主LLM数据工程师能够显著提升模型性能，GPT-5.2构建的训练课程使学生模型性能提升了57.29%，完全通过迭代的代理驱动数据适应实现。通过揭示潜力与瓶颈，本文为自主数据工程建立了可测量的能力，并为代理驱动的模型专业化指明了方向。

🔬 方法详解

问题定义：本文旨在解决现有LLM在专业领域适应性不足的问题，现有方法依赖人工设计，缺乏自主性和效率。

核心思路：提出自主代理数据工程的概念，设计LLM作为自主数据工程师，通过优化数据来提升模型性能，强调数据作为可优化组件的重要性。

技术框架：整体架构包括数据规划、生成和迭代优化三个主要模块，LLM通过这些模块自主执行数据工程任务，最终提升模型的后训练性能。

关键创新：最重要的创新在于将数据工程任务完全自主化，LLM能够在没有人工干预的情况下进行数据策划和优化，这与传统依赖人工的方法有本质区别。

关键设计：在参数设置上，采用了针对不同领域的优化策略，损失函数设计上关注后训练性能的提升，网络结构上则利用了最新的LLM架构以支持复杂的数据生成与优化任务。

🖼️ 关键图片

📊 实验亮点

实验结果表明，GPT-5.2构建的训练课程使得学生模型性能提升了57.29%，这一显著提升完全依赖于自主迭代的数据适应，展示了自主代理数据工程的强大潜力。

🎯 应用场景

该研究的潜在应用领域包括医疗、金融、法律等专业领域，能够通过自主数据工程提升模型在特定领域的性能，减少对人工数据策划的依赖，具有重要的实际价值和未来影响。

📄 摘要（原文）

Large Language Models (LLMs) have demonstrated strong performance on general tasks, while often struggling to adapt to specialized domains without high-quality domain-specific data. Existing LLM-based data curation methods primarily rely on human-designed workflows, leaving it unexamined whether LLMs can autonomously execute an end-to-end data engineering pipeline for model specialization. We formalize \textbf{Autonomous Agentic Data Engineering}, a novel task designed to evaluate LLMs as autonomous data engineers that drive model specialization through end-to-end data curation. We frame data as an optimizable component and study agents that plan, generate, and iteratively optimize training data across multiple domains, guided by post-training performance improvement. Experiments show that autonomous LLM data engineers yield substantial gains, as GPT-5.2 constructs a training curriculum that improves a student model by \textbf{57.29\%}, entirely through iterative, agent-driven data adaptation. By illuminating both potential and bottlenecks, our study establishes autonomous data engineering as a measurable capability and charts a path toward agent-driven model specialization\footnote{Code will be released at https://github.com/zjunlp/DataAgent.}.

Exploring Autonomous Agentic Data Engineering for Model Specialization

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理