LeJOT-AutoML: LLM-Driven Feature Engineering for Job Execution Time Prediction in Databricks Cost Optimization

作者: Lizhi Ma, Yi-Xiang Hu, Yihui Ren, Feng Wu, Xiang-Yang Li

分类: cs.LG

发布日期: 2026-03-09

💡 一句话要点

LeJOT-AutoML：基于LLM的特征工程，优化Databricks作业执行时间预测

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: AutoML 大型语言模型 特征工程 作业执行时间预测 Databricks 成本优化 云原生 资源调度

📋 核心要点

现有Databricks作业执行时间预测依赖手动特征工程，难以捕捉运行时动态变化，导致预测不准确和成本优化受限。
LeJOT-AutoML利用LLM代理自动分析作业工件，生成运行时特征，并通过安全门验证，实现高效的特征工程和模型更新。
实验表明，LeJOT-AutoML能生成200+特征，将特征工程周期从数周缩短至20分钟，并在实际部署中节省19.01%的成本。

📝 摘要（中文）

Databricks作业编排系统（如LeJOT）通过选择低价计算配置来降低云成本，同时满足延迟和依赖约束。准确预测异构实例类型和非平稳运行时条件下的执行时间至关重要。现有流程依赖于静态、手动设计的特征，无法充分捕捉运行时效应（如分区修剪、数据倾斜和shuffle放大），且预测信号分散在日志、元数据和作业脚本中，延长了更新周期并增加了工程开销。我们提出了LeJOT-AutoML，一个由代理驱动的AutoML框架，将大型语言模型代理嵌入到ML生命周期中。LeJOT-AutoML结合了基于领域知识库的检索增强生成和模型上下文协议工具链（日志解析器、元数据查询和只读SQL沙箱），以分析作业工件，通过安全门合成和验证特征提取代码，并训练/选择预测器。这种设计实现了仅通过静态分析难以获得的运行时派生特征。在企业Databricks工作负载上，LeJOT-AutoML生成了超过200个特征，并将特征工程和评估循环从数周缩短到20-30分钟，同时保持了有竞争力的预测精度。集成到LeJOT流程中，它实现了自动连续模型更新，并在我们的部署环境中通过改进的编排实现了19.01%的成本节省。

🔬 方法详解

问题定义：论文旨在解决Databricks作业执行时间预测中，现有方法依赖静态特征、难以捕捉运行时效应的问题。现有方法需要大量人工特征工程，周期长、成本高，且难以适应非平稳的运行时环境，导致预测精度不足，无法有效优化云资源成本。

核心思路：论文的核心思路是利用大型语言模型（LLM）的强大理解和生成能力，构建一个自动化的特征工程框架。通过LLM分析作业相关的各种信息源（日志、元数据、脚本），自动提取运行时特征，并进行验证，从而克服传统方法的局限性。

技术框架：LeJOT-AutoML框架包含以下主要模块：1) 领域知识库：存储Databricks作业相关的知识，用于检索增强生成。2) 模型上下文协议工具链：包括日志解析器、元数据查询和只读SQL沙箱，用于访问和分析作业工件。3) LLM代理：负责分析作业工件，生成特征提取代码，并通过安全门进行验证。4) 训练/选择模块：使用生成的特征训练预测模型，并选择最佳模型。整体流程是，LLM代理利用领域知识库和模型上下文协议工具链分析作业，生成特征提取代码，经过安全验证后，用于训练预测模型。

关键创新：LeJOT-AutoML的关键创新在于利用LLM驱动的自动化特征工程。与传统的手动特征工程相比，LeJOT-AutoML能够自动分析作业相关的各种信息源，提取运行时特征，并进行验证，大大提高了特征工程的效率和质量。此外，该框架还采用了安全门机制，确保生成的特征提取代码的安全性。

关键设计：论文中提到使用了检索增强生成（Retrieval-Augmented Generation）来利用领域知识库，但没有详细说明检索和生成的具体算法。安全门（Safety Gates）的具体实现方式也未详细描述，但强调了其在保证特征提取代码安全性的作用。模型训练和选择的具体算法也未详细说明。

🖼️ 关键图片

📊 实验亮点

LeJOT-AutoML在企业Databricks工作负载上生成了超过200个特征，并将特征工程和评估循环从数周缩短到20-30分钟。集成到LeJOT流程后，通过改进的编排实现了19.01%的成本节省。这些结果表明，LeJOT-AutoML能够显著提高特征工程的效率和预测精度，从而有效降低云资源成本。

🎯 应用场景

LeJOT-AutoML可应用于各种云原生数据处理平台的成本优化，通过更准确的作业执行时间预测，实现更高效的资源调度和成本控制。该研究对自动化特征工程和LLM在云资源管理领域的应用具有重要参考价值，未来可扩展到其他类型的云服务和工作负载。

📄 摘要（原文）

Databricks job orchestration systems (e.g., LeJOT) reduce cloud costs by selecting low-priced compute configurations while meeting latency and dependency constraints. Accurate execution-time prediction under heterogeneous instance types and non-stationary runtime conditions is therefore critical. Existing pipelines rely on static, manually engineered features that under-capture runtime effects (e.g., partition pruning, data skew, and shuffle amplification), and predictive signals are scattered across logs, metadata, and job scripts-lengthening update cycles and increasing engineering overhead. We present LeJOT-AutoML, an agent-driven AutoML framework that embeds large language model agents throughout the ML lifecycle. LeJOT-AutoML combines retrieval-augmented generation over a domain knowledge base with a Model Context Protocol toolchain (log parsers, metadata queries, and a read-only SQL sandbox) to analyze job artifacts, synthesize and validate feature-extraction code via safety gates, and train/select predictors. This design materializes runtime-derived features that are difficult to obtain through static analysis alone. On enterprise Databricks workloads, LeJOT-AutoML generates over 200 features and reduces the feature-engineering and evaluation loop from weeks to 20-30 minutes, while maintaining competitive prediction accuracy. Integrated into the LeJOT pipeline, it enables automated continuous model updates and achieves 19.01% cost savings in our deployment setting through improved orchestration.

LeJOT-AutoML: LLM-Driven Feature Engineering for Job Execution Time Prediction in Databricks Cost Optimization

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理