BacktestBench: Benchmarking Large Language Models for Automated Quantitative Strategy Backtesting

作者: Zhensheng Wang, Wenmian Yang, Qingtai Wu, Lequan Ma, Yiquan Zhang, Weijia Jia

分类: cs.CL, cs.AI

发布日期: 2026-05-18

备注: This paper has been accepted by KDD 2026 (Datasets and Benchmarks Track)

💡 一句话要点

BacktestBench：用于自动化量化策略回测的大语言模型基准测试平台

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 量化回测 大型语言模型 基准测试 自动化交易 多智能体系统

📋 核心要点

量化回测技术门槛高、可扩展性差，阻碍了交易策略的有效评估和优化。
BacktestBench通过构建大规模基准测试，并提出AutoBacktest多智能体框架，实现自然语言策略到可复现回测的转化。
实验结果表明，该基准测试能够有效评估LLM在量化回测中的性能，并揭示影响性能的关键因素。

📝 摘要（中文）

量化回测对于评估交易策略至关重要，但其技术门槛高且可扩展性有限。大型语言模型（LLM）通过先进的代码生成、工具使用和智能体规划，为自动化这一复杂的跨学科工作流程提供了一条变革性路径。然而，由于目前缺乏专门用于自动化量化回测的大规模基准测试，严重阻碍了该领域的进展，实际应用面临巨大挑战。为了弥合这一关键差距，我们推出了BacktestBench，这是首个用于自动化量化回测的大规模基准测试。它基于超过600万条真实市场记录构建，包含18246个精心标注的问答对，涵盖四个任务类别：指标计算、股票选择、策略选择和参数确认。我们还提出了AutoBacktest，一个强大的多智能体基线，通过协调用于语义因子提取的Summarizer、用于验证SQL生成的Retriever和用于Python回测实现的Coder，将自然语言策略转化为可复现的回测。我们对23个主流LLM的评估，以及有针对性的消融实验，确定了影响端到端性能的关键因素，并强调了基于事实的验证和标准化指标表示的重要性。

🔬 方法详解

问题定义：论文旨在解决自动化量化策略回测中缺乏大规模基准测试的问题。现有方法依赖人工编写代码和手动验证，效率低下且容易出错。此外，现有方法难以充分利用大型语言模型（LLM）在代码生成和策略理解方面的潜力。

核心思路：论文的核心思路是构建一个大规模、高质量的基准测试数据集BacktestBench，并设计一个多智能体框架AutoBacktest，以自动化地将自然语言描述的交易策略转化为可执行的回测代码。通过该基准测试，可以系统地评估LLM在量化回测任务中的性能，并促进相关技术的发展。

技术框架：AutoBacktest框架包含三个主要模块：Summarizer、Retriever和Coder。Summarizer负责从自然语言策略中提取语义因子；Retriever负责生成并验证SQL查询，以从数据库中检索所需数据；Coder负责将策略逻辑转化为Python代码，并执行回测。这三个模块协同工作，实现端到端的自动化回测流程。

关键创新：该论文的关键创新在于构建了首个大规模的自动化量化回测基准测试BacktestBench，并提出了一个多智能体框架AutoBacktest。BacktestBench提供了一个标准化的评估平台，促进了不同LLM和回测方法的比较和改进。AutoBacktest通过模块化的设计，实现了自然语言策略到可执行代码的自动转化，降低了量化回测的技术门槛。

关键设计：BacktestBench包含四个任务类别：指标计算、股票选择、策略选择和参数确认。每个任务都包含大量的问答对，并经过精心标注。AutoBacktest中的Summarizer、Retriever和Coder分别采用不同的LLM进行实现，并通过实验确定了最佳的模型组合。论文还设计了消融实验，以评估不同模块和因素对整体性能的影响。

📊 实验亮点

实验结果表明，AutoBacktest框架在BacktestBench基准测试上取得了显著的性能。通过对23个主流LLM的评估，论文确定了影响端到端性能的关键因素，并强调了基于事实的验证和标准化指标表示的重要性。消融实验进一步验证了各个模块的有效性，并为未来的研究提供了指导。

🎯 应用场景

该研究成果可应用于金融量化交易领域，帮助投资者和研究人员更高效地开发和评估交易策略。BacktestBench基准测试可以促进LLM在量化金融领域的应用，降低量化交易的技术门槛，并推动自动化交易策略的发展。未来，该研究可以扩展到更复杂的交易场景和更广泛的金融领域。

📄 摘要（原文）

Quantitative backtesting is essential for evaluating trading strategies but remains hampered by high technical barriers and limited scalability. While Large Language Models (LLMs) offer a transformative path to automate this complex, interdisciplinary workflow through advanced code generation, tool usage, and agentic planning, the practical realization is significantly challenged by the current lack of a large-scale benchmark dedicated to automated quantitative backtesting, which hinders progress in this field. To bridge this critical gap, we introduce BacktestBench, the first large-scale benchmark for automated quantitative backtesting. Built from over 6 million real market records, it comprises 18,246 meticulously annotated question-answering pairs across four task categories: metrics calculation, ticker selection, strategy selection, and parameter confirmation. We also propose AutoBacktest, a robust multi-agent baseline that translates natural language strategies into reproducible backtests by coordinating a Summarizer for semantic factor extraction, a Retriever for validated SQL generation, and a Coder for Python backtesting implementation. Our evaluation on 23 mainstream LLMs, complemented by targeted ablations, identifies key factors that influence end-to-end performance and highlights the importance of grounded verification and standardized indicator representations.

BacktestBench: Benchmarking Large Language Models for Automated Quantitative Strategy Backtesting

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理