Exploring Autonomous Agentic Data Engineering for Model Specialization

📄 arXiv: 2605.30407v1 📥 PDF

作者: Yujie Luo, Xiangyuan Ru, Jingsheng Zheng, Jingjing Wang, Yuqi Zhu, Jintian Zhang, Runnan Fang, Kewei Xu, Ye Liu, Zheng Wei, Jiang Bian, Zang Li, Shumin Deng

分类: cs.CL, cs.AI, cs.IR, cs.LG

发布日期: 2026-05-28

备注: Work in progress

🔗 代码/项目: GITHUB


💡 一句话要点

提出自主代理数据工程以解决模型专业化问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 自主数据工程 大型语言模型 模型专业化 数据策划 性能提升

📋 核心要点

  1. 现有的LLM数据策划方法依赖人工设计,缺乏自主执行数据工程的能力,限制了模型在专业领域的适应性。
  2. 本文提出自主代理数据工程,旨在让LLM作为自主数据工程师,通过优化训练数据来推动模型的专业化。
  3. 实验结果显示,GPT-5.2通过迭代的数据适应使学生模型性能提升了57.29%,展示了自主数据工程的有效性。

📝 摘要(中文)

大型语言模型(LLMs)在通用任务上表现优异,但在专业领域的适应性较差,往往依赖高质量的领域特定数据。现有基于LLM的数据策划方法主要依赖人工设计的工作流程,尚未探讨LLM是否能够自主执行端到端的数据工程管道以实现模型专业化。本文正式提出了自主代理数据工程这一新任务,旨在评估LLM作为自主数据工程师的能力,通过端到端的数据策划推动模型专业化。实验表明,自主LLM数据工程师能够显著提升模型性能,GPT-5.2构建的训练课程使学生模型性能提升了57.29%,完全通过迭代的代理驱动数据适应实现。通过揭示潜力与瓶颈,本文为自主数据工程建立了可测量的能力,并为代理驱动的模型专业化指明了方向。

🔬 方法详解

问题定义:本文旨在解决现有LLM在专业领域适应性不足的问题,现有方法依赖人工设计,缺乏自主性和效率。

核心思路:提出自主代理数据工程的概念,设计LLM作为自主数据工程师,通过优化数据来提升模型性能,强调数据作为可优化组件的重要性。

技术框架:整体架构包括数据规划、生成和迭代优化三个主要模块,LLM通过这些模块自主执行数据工程任务,最终提升模型的后训练性能。

关键创新:最重要的创新在于将数据工程任务完全自主化,LLM能够在没有人工干预的情况下进行数据策划和优化,这与传统依赖人工的方法有本质区别。

关键设计:在参数设置上,采用了针对不同领域的优化策略,损失函数设计上关注后训练性能的提升,网络结构上则利用了最新的LLM架构以支持复杂的数据生成与优化任务。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,GPT-5.2构建的训练课程使得学生模型性能提升了57.29%,这一显著提升完全依赖于自主迭代的数据适应,展示了自主代理数据工程的强大潜力。

🎯 应用场景

该研究的潜在应用领域包括医疗、金融、法律等专业领域,能够通过自主数据工程提升模型在特定领域的性能,减少对人工数据策划的依赖,具有重要的实际价值和未来影响。

📄 摘要(原文)

Large Language Models (LLMs) have demonstrated strong performance on general tasks, while often struggling to adapt to specialized domains without high-quality domain-specific data. Existing LLM-based data curation methods primarily rely on human-designed workflows, leaving it unexamined whether LLMs can autonomously execute an end-to-end data engineering pipeline for model specialization. We formalize \textbf{Autonomous Agentic Data Engineering}, a novel task designed to evaluate LLMs as autonomous data engineers that drive model specialization through end-to-end data curation. We frame data as an optimizable component and study agents that plan, generate, and iteratively optimize training data across multiple domains, guided by post-training performance improvement. Experiments show that autonomous LLM data engineers yield substantial gains, as GPT-5.2 constructs a training curriculum that improves a student model by \textbf{57.29\%}, entirely through iterative, agent-driven data adaptation. By illuminating both potential and bottlenecks, our study establishes autonomous data engineering as a measurable capability and charts a path toward agent-driven model specialization\footnote{Code will be released at https://github.com/zjunlp/DataAgent.}.