Market-Bench: Evaluating Large Language Models on Introductory Quantitative Trading and Market Dynamics
作者: Abhay Srivastava, Sam Jung, Spencer Mateega
分类: cs.CL
发布日期: 2025-12-13 (更新: 2026-01-20)
💡 一句话要点
提出Market-Bench基准,评估大语言模型在量化交易和市场动态方面的能力。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 量化交易 大型语言模型 基准测试 金融科技 回测 代码生成 市场动态
📋 核心要点
- 现有方法难以系统评估LLM在量化交易中的应用能力,缺乏统一的基准和评估标准。
- 提出Market-Bench基准,通过自然语言描述生成可执行回测代码,评估LLM在不同交易策略上的性能。
- 实验结果表明,现有LLM在简单策略上表现较好,但在复杂策略和风险管理方面仍存在挑战。
📝 摘要(中文)
本文提出了MARKET-BENCH,一个用于评估大型语言模型(LLM)在入门级量化交易任务上的基准。该基准通过要求LLM从自然语言策略描述和市场假设中构建可执行的回测程序来实现评估。每个实例指定三种典型的策略之一:微软(NASDAQ: MSFT)的定期交易、可口可乐(NASDAQ: KO)和百事可乐(NASDAQ: PEP)的配对交易,或MSFT的Delta对冲。模型必须生成代码,其盈亏(P&L)、回撤和头寸路径与可验证的参考实现相匹配。我们使用多轮评估来评估了13个最先进的模型,该评估将结构可靠性(回测是否运行)与数值精度(回测指标的平均绝对误差)分开,并将失败的输出分配一个重复指标的基线MAE。虽然大多数模型可靠地执行最简单的策略(平均可执行通过率为5轮中的4.08轮),但不同模型和任务之间的误差变化很大。Gemini 3 Pro和Claude 4.5 Sonnet将强大的可靠性与简单策略的低误差相结合。GPT-5.2实现了强大的整体性能和完美的可执行性。GPT-5.1 Codex-Max在最简单的任务上实现了最低的最佳运行误差。Qwen3 Max实现了完美的可执行性,但有时会产生不准确的盈亏路径。这些结果表明,当前的LLM可以搭建基本的交易基础设施,但仍然难以对价格、库存和风险进行稳健的推理。我们在https://marketbench.ai上发布了MARKET-BENCH和一个公共排行榜。
🔬 方法详解
问题定义:论文旨在解决如何有效评估大型语言模型(LLM)在量化交易领域的应用能力的问题。现有方法缺乏一个标准化的、可复现的基准来衡量LLM理解交易策略、生成可执行代码并进行风险管理的能力。现有的量化交易策略开发高度依赖专业知识,LLM能否胜任该任务尚不明确。
核心思路:论文的核心思路是构建一个基准测试平台,该平台能够根据自然语言描述的交易策略和市场假设,评估LLM生成可执行回测代码的能力。通过比较LLM生成的代码的回测结果与参考实现,可以量化LLM在理解交易逻辑、处理市场数据和进行风险评估方面的表现。
技术框架:Market-Bench基准测试框架包含以下主要组成部分:1) 一系列量化交易策略的自然语言描述,涵盖定期交易、配对交易和Delta对冲等经典策略;2) 相应的市场数据和假设;3) 参考实现的回测代码,作为ground truth;4) 评估指标,包括代码可执行性、盈亏(P&L)误差、回撤误差等。LLM接收自然语言描述和市场假设作为输入,生成回测代码,然后与参考实现进行比较。
关键创新:该论文的关键创新在于提出了一个专门针对量化交易任务的LLM评估基准。与通用的代码生成或自然语言理解基准不同,Market-Bench侧重于评估LLM在金融领域的特定能力,例如理解交易策略、处理时间序列数据和进行风险管理。此外,该基准还提供了一个公共排行榜,促进了不同LLM之间的公平比较和持续改进。
关键设计:Market-Bench的关键设计包括:1) 选择了三种具有代表性的量化交易策略,覆盖了不同的交易风格和风险特征;2) 使用自然语言描述作为输入,模拟了实际交易场景中策略开发的过程;3) 采用多轮评估,区分了代码可执行性和数值精度,更全面地评估了LLM的性能;4) 使用平均绝对误差(MAE)作为主要评估指标,量化了LLM生成的回测结果与参考实现之间的差异。
📊 实验亮点
实验结果表明,Gemini 3 Pro和Claude 4.5 Sonnet在简单策略上表现出较强的可靠性和较低的误差。GPT-5.2实现了强大的整体性能和完美的可执行性。GPT-5.1 Codex-Max在最简单的任务上实现了最低的最佳运行误差。Qwen3 Max实现了完美的可执行性,但有时会产生不准确的盈亏路径。
🎯 应用场景
该研究成果可应用于量化交易策略的自动化开发、交易机器人的辅助编程以及金融教育等领域。通过Market-Bench,可以更有效地评估和选择适合量化交易任务的LLM,降低策略开发门槛,并促进金融领域的AI应用。
📄 摘要(原文)
We introduce MARKET-BENCH, a benchmark that evaluates large language models (LLMs) on introductory quantitative trading tasks by asking them to construct executable backtesters from natural language strategy descriptions and market assumptions. Each instance specifies one of three canonical strategies: scheduled trading on Microsoft (NASDAQ: MSFT), pairs trading on Coca-Cola (NASDAQ: KO) and Pepsi (NASDAQ: PEP), or delta hedging on MSFT. Models must produce code whose profit and loss (P and L), drawdown, and position paths match a verifiable reference implementation. We assess thirteen state-of-the-art models using a multi-round evaluation that separates structural reliability (whether the backtest runs) from numerical accuracy (mean absolute error of the backtest metrics), assigning failed outputs a duplicated-metrics baseline MAE. While most models reliably execute the simplest strategy (average executable passes of 4.08 out of 5 rounds), errors vary by orders of magnitude across models and tasks. Gemini 3 Pro and Claude 4.5 Sonnet combine strong reliability with low error on simpler strategies. GPT-5.2 achieves strong overall performance with perfect executability. GPT-5.1 Codex-Max achieves the lowest best-run error on the easiest task. Qwen3 Max attains perfect executability yet sometimes produces inaccurate profit and loss paths. These results show that current LLMs can scaffold basic trading infrastructure but still struggle to reason robustly about prices, inventory, and risk. We release MARKET-BENCH and a public leaderboard at https://marketbench.ai.