AutoIndexer: A Reinforcement Learning-Enhanced Index Advisor Towards Scaling Workloads

📄 arXiv: 2507.23084v1 📥 PDF

作者: Taiyi Wang, Eiko Yoneki

分类: cs.DB, cs.AI

发布日期: 2025-07-30

备注: 14 pages


💡 一句话要点

AutoIndexer:一种强化学习增强的索引推荐器,用于扩展工作负载

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 索引推荐 强化学习 工作负载压缩 查询优化 数据库性能优化

📋 核心要点

  1. 现有基于强化学习的索引推荐器难以适应大规模工作负载,主要挑战在于动作空间的指数级增长和高昂的试错成本。
  2. AutoIndexer通过工作负载压缩降低搜索复杂度,结合查询优化和专用强化学习模型,实现高效的索引选择。
  3. 实验结果表明,AutoIndexer显著降低查询执行时间,在工作负载成本节省和调整时间方面均优于现有方法。

📝 摘要(中文)

高效地选择索引是数据库性能优化的基础,尤其是在处理大规模分析工作负载的系统中。虽然深度强化学习(DRL)通过其从经验中学习的能力,在自动化索引选择方面显示出前景,但很少有工作关注这些基于RL的索引推荐器如何适应扩展的工作负载,因为动作空间呈指数增长,并且需要大量的试错。为了应对这些挑战,我们引入了AutoIndexer,这是一个结合了工作负载压缩、查询优化和专用RL模型的框架,可以有效地扩展索引选择。通过在压缩的工作负载上运行,AutoIndexer在不牺牲太多索引质量的情况下,大大降低了搜索复杂度。广泛的评估表明,与非索引基线相比,它可以将端到端查询执行时间减少高达95%。平均而言,它在工作负载成本节省方面优于最先进的基于RL的索引推荐器约20%,同时将调整时间缩短了50%以上。这些结果证实了AutoIndexer对于大型和多样化工作负载的实用性。

🔬 方法详解

问题定义:论文旨在解决数据库系统中,面对大规模分析型工作负载时,如何高效地进行索引选择的问题。现有基于强化学习的索引推荐方法,在处理大规模工作负载时,面临动作空间爆炸式增长和训练时间过长的问题,导致难以实际应用。这些方法需要大量的试错来学习最佳索引策略,成本很高。

核心思路:AutoIndexer的核心思路是通过工作负载压缩来降低索引选择的搜索空间,从而减少强化学习的探索成本。同时,结合查询优化技术,进一步提升索引选择的效率和质量。通过专门设计的强化学习模型,AutoIndexer能够更好地适应压缩后的工作负载,并学习到有效的索引策略。

技术框架:AutoIndexer框架主要包含三个模块:工作负载压缩模块、查询优化模块和强化学习索引选择模块。首先,工作负载压缩模块对原始工作负载进行压缩,减少需要考虑的查询数量。然后,查询优化模块对压缩后的工作负载进行分析,提取关键的查询特征。最后,强化学习索引选择模块基于提取的特征,利用专门设计的强化学习模型,选择合适的索引。整个流程旨在在保证索引质量的前提下,显著降低索引选择的计算复杂度。

关键创新:AutoIndexer的关键创新在于将工作负载压缩技术与强化学习相结合,有效地解决了大规模工作负载下的索引选择问题。与传统的强化学习方法相比,AutoIndexer通过压缩工作负载,显著降低了动作空间的大小,从而减少了强化学习的探索成本和训练时间。此外,AutoIndexer还采用了专门设计的强化学习模型,以更好地适应压缩后的工作负载。

关键设计:论文中关于强化学习模型的具体网络结构、损失函数和奖励函数等技术细节描述不足,属于未知信息。工作负载压缩的具体算法和查询优化策略也缺乏详细描述。这些细节对于复现和进一步研究AutoIndexer至关重要。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,AutoIndexer与非索引基线相比,可以将端到端查询执行时间减少高达95%。与最先进的基于RL的索引推荐器相比,AutoIndexer在工作负载成本节省方面平均提升约20%,同时将调整时间缩短了50%以上。这些数据表明AutoIndexer在性能和效率方面均具有显著优势。

🎯 应用场景

AutoIndexer可应用于各种需要处理大规模分析型工作负载的数据库系统,例如数据仓库、OLAP系统等。它可以自动化地选择合适的索引,从而显著提升查询性能,降低数据库管理的成本。该研究对于提升数据库系统的自动化管理水平,以及优化大数据分析的效率具有重要的实际价值和潜在影响。

📄 摘要(原文)

Efficiently selecting indexes is fundamental to database performance optimization, particularly for systems handling large-scale analytical workloads. While deep reinforcement learning (DRL) has shown promise in automating index selection through its ability to learn from experience, few works address how these RL-based index advisors can adapt to scaling workloads due to exponentially growing action spaces and heavy trial and error. To address these challenges, we introduce AutoIndexer, a framework that combines workload compression, query optimization, and specialized RL models to scale index selection effectively. By operating on compressed workloads, AutoIndexer substantially lowers search complexity without sacrificing much index quality. Extensive evaluations show that it reduces end-to-end query execution time by up to 95% versus non-indexed baselines. On average, it outperforms state-of-the-art RL-based index advisors by approximately 20% in workload cost savings while cutting tuning time by over 50%. These results affirm AutoIndexer's practicality for large and diverse workloads.