Agentic Cost-Aware Query Planning with Knowledge Distillation for Big Data Analytics

作者: Mahdi Naser-Moghadasi

分类: cs.LG, cs.DB

发布日期: 2026-05-18

备注: 8 pages, preprint, code at https://github.com/mahdinaser/agentic-kd-planner

🔗 代码/项目: GITHUB

💡 一句话要点

提出基于知识蒸馏的Agentic Cost-Aware查询规划器，优化大数据分析中的资源受限查询。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 大数据分析 查询优化 知识蒸馏 强化学习 bandit算法 资源受限 SQL规划

📋 核心要点

大数据分析中的查询优化面临计算开销大、资源受限等挑战，传统优化器难以兼顾性能与资源约束。
论文提出agentic查询规划系统，利用教师规划器、UCB1 bandit探索、成本预测和知识蒸馏，构建轻量级学生规划器。
实验结果表明，该方法在降低查询延迟、满足资源约束和提高推理速度方面均优于传统规划器。

📝 摘要（中文）

本文提出了一种agentic查询规划系统，旨在解决大数据分析中查询优化计算开销大的问题，尤其是在资源受限的环境下，传统优化器无法满足内存和延迟约束。该系统结合了基于规则的教师规划器、UCB1 bandit探索、成本感知预测和知识蒸馏，构建了一个轻量级的学生规划器。教师规划器使用六个关键优化策略生成SQL计划，而UCB1 bandit搜索在显式资源约束下有效地探索计划空间。随机森林成本模型从计划特征预测查询延迟，从而实现成本感知的决策。蒸馏后的学生规划器（逻辑回归或梯度提升）学习模仿教师-bandit的决策，以实现快速推理。在NYC Taxi和IMDB数据集上的评估表明，与默认规划器相比，延迟降低了23%，同时保持了94%的约束满足率。学生规划器在复制最优计划方面达到了89%的准确率，推理速度提高了15倍。我们的单文件实现支持在资源有限的机器上进行可复现的大数据分析，并在https://github.com/mahdinaser/agentic-kd-planner上公开。

🔬 方法详解

问题定义：大数据分析中的查询优化，特别是SQL查询规划，在资源受限的环境下面临挑战。传统的查询优化器往往计算开销大，无法同时满足内存和延迟的约束。因此，需要在保证查询性能的同时，降低计算复杂度和资源消耗。

核心思路：论文的核心思路是利用知识蒸馏，将复杂教师规划器的知识迁移到轻量级的学生规划器中。教师规划器负责生成高质量的查询计划，并通过UCB1 bandit算法进行探索，找到满足资源约束的最优计划。学生规划器则学习教师规划器的决策，从而实现快速且资源高效的查询规划。

技术框架：整体框架包含以下几个主要模块：1) 教师规划器：基于规则的SQL计划生成器，采用六种优化策略。2) UCB1 Bandit探索：在资源约束下，高效探索计划空间，选择最优计划。3) 成本模型：使用随机森林预测查询延迟，用于成本感知的决策。4) 知识蒸馏：将教师规划器的知识迁移到学生规划器。5) 学生规划器：轻量级的模型（逻辑回归或梯度提升），用于快速推理。

关键创新：该方法的主要创新在于将强化学习中的bandit算法与知识蒸馏相结合，用于解决大数据查询优化问题。传统的查询优化方法通常依赖于复杂的启发式规则或代价模型，而该方法通过学习的方式，能够更好地适应不同的数据集和查询负载。此外，通过知识蒸馏，可以将复杂模型的知识迁移到轻量级模型，从而实现快速推理。

关键设计：教师规划器采用六种关键的SQL优化策略（具体策略未知）。UCB1 bandit算法用于探索计划空间，其探索-利用平衡参数需要仔细调整。随机森林成本模型使用计划特征作为输入，预测查询延迟。学生规划器可以选择逻辑回归或梯度提升模型，其模型结构和训练参数需要根据具体数据集进行调整。知识蒸馏过程中，需要选择合适的损失函数，以保证学生规划器能够有效地学习教师规划器的决策。

🖼️ 关键图片

📊 实验亮点

实验结果表明，与默认规划器相比，该方法可以将查询延迟降低23%，同时保持94%的约束满足率。学生规划器在复制最优计划方面达到了89%的准确率，推理速度提高了15倍。这些结果表明，该方法在提高查询性能和降低资源消耗方面具有显著优势。

🎯 应用场景

该研究成果可应用于各种大数据分析场景，尤其是在资源受限的环境下，例如边缘计算、移动设备和物联网设备。通过使用轻量级的学生规划器，可以在这些设备上实现高效的查询优化，从而提高数据分析的效率和降低资源消耗。此外，该方法还可以用于构建自适应的查询优化系统，根据不同的数据集和查询负载自动调整优化策略。

📄 摘要（原文）

Query optimization in big data analytics remains computationally expensive, particularly for resource-constrained environments where traditional optimizers fail to satisfy memory and latency constraints. We present an agentic query planning system that combines a rule-based teacher planner, UCB1 bandit exploration, cost-aware prediction, and knowledge distillation to a lightweight student planner. Our teacher planner generates SQL plans using six key optimization strategies, while UCB1 bandit search efficiently explores the plan space under explicit resource constraints. A Random Forest cost model predicts query latency from plan features, enabling cost-aware decisions. A distilled student planner (Logistic Regression or Gradient Boosting) learns to mimic teacher-bandit decisions for fast inference. Evaluation on NYC Taxi and IMDB datasets demonstrates 23% latency reduction compared to default planners while maintaining 94% constraint satisfaction. The student planner achieves 89% accuracy in replicating optimal plans with 15x faster inference time. Our single-file implementation enables reproducible big-data analytics on resource-limited machines and is publicly available at https://github.com/mahdinaser/agentic-kd-planner.

Agentic Cost-Aware Query Planning with Knowledge Distillation for Big Data Analytics

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理