TradeFM: A Generative Foundation Model for Trade-flow and Market Microstructure
作者: Maxime Kawawa-Beaudan, Srijan Sood, Kassiani Papasotiriou, Daniel Borrajo, Manuela Veloso
分类: cs.LG, cs.AI, q-fin.CP, q-fin.TR
发布日期: 2026-02-27
备注: 29 pages, 17 figures, 6 tables. Preprint
💡 一句话要点
TradeFM:用于交易流和市场微观结构的生成式基础模型
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 生成式模型 市场微观结构 交易流 Transformer 跨资产泛化
📋 核心要点
- 现有方法难以从大规模异构交易数据中学习通用的市场微观结构表征,限制了跨资产泛化能力。
- TradeFM通过尺度不变特征和通用token化方案,将异构订单流转换为统一离散序列,实现跨资产的知识迁移。
- 实验表明TradeFM能有效重现金融收益率的关键特征,并在零样本情况下泛化到新的市场,性能优于现有基线。
📝 摘要(中文)
本文介绍TradeFM,一个拥有5.24亿参数的生成式Transformer模型,它将基础模型范式引入市场微观结构领域。TradeFM直接从超过9000种股票的数十亿交易事件中学习通用表征。为了实现跨资产泛化,我们开发了尺度不变特征和通用token化方案,将异构、多模态的订单流事件流映射到统一的离散序列中,从而消除了特定于资产的校准。TradeFM与确定性市场模拟器集成后,生成的模型能够重现金融收益率的关键特征,包括厚尾、波动率聚集和收益率自相关缺失。在量化方面,TradeFM实现了比Compound Hawkes基线低2-3倍的分布误差,并且在零样本情况下泛化到地理位置分布之外的亚太市场,且复杂度适度下降。这些结果表明,尺度不变的交易表征捕捉了市场微观结构中可转移的结构,为合成数据生成、压力测试和基于学习的交易代理开辟了道路。
🔬 方法详解
问题定义:现有市场微观结构建模方法通常依赖于特定资产的校准,难以泛化到新的资产或市场。此外,从海量的异构交易数据中学习通用的、可迁移的表征仍然是一个挑战。现有方法难以捕捉金融市场中的复杂动态和非线性关系,限制了其在合成数据生成、压力测试和智能交易等领域的应用。
核心思路:TradeFM的核心思路是利用Transformer架构强大的序列建模能力,直接从大规模交易事件流中学习市场微观结构的通用表征。通过设计尺度不变的特征和通用token化方案,将不同资产的交易数据映射到统一的离散空间,从而实现跨资产的知识迁移和泛化。
技术框架:TradeFM的整体框架包括以下几个主要模块:1) 数据预处理:将原始交易数据转换为尺度不变的特征表示。2) 通用Token化:将连续的特征值离散化为统一的token序列。3) Transformer模型:使用Transformer架构学习token序列的概率分布。4) 市场模拟器:将TradeFM生成的交易事件输入到确定性市场模拟器中,评估其性能。
关键创新:TradeFM的关键创新在于其尺度不变特征和通用token化方案。尺度不变特征能够消除不同资产价格范围的影响,使得模型能够学习到更通用的市场微观结构规律。通用token化方案将连续的特征值离散化为统一的token序列,使得模型能够处理不同类型的交易事件,并实现跨资产的知识迁移。
关键设计:TradeFM使用了一个5.24亿参数的Transformer模型。尺度不变特征包括相对价格变化、标准化交易量等。通用token化方案使用分位数离散化方法,将连续特征值映射到固定数量的token。损失函数为标准的交叉熵损失函数,用于训练Transformer模型预测下一个token。
🖼️ 关键图片
📊 实验亮点
TradeFM在实验中表现出色,实现了比Compound Hawkes基线低2-3倍的分布误差。此外,TradeFM在零样本情况下泛化到地理位置分布之外的亚太市场,且复杂度适度下降,验证了其跨市场泛化能力。TradeFM生成的交易数据能够重现金融收益率的关键特征,包括厚尾、波动率聚集和收益率自相关缺失。
🎯 应用场景
TradeFM具有广泛的应用前景,包括:1) 合成数据生成:生成逼真的合成交易数据,用于训练和评估交易算法。2) 压力测试:模拟极端市场条件,评估金融系统的风险承受能力。3) 智能交易:开发基于学习的交易代理,自动执行交易策略。4) 风险管理:识别和预测市场风险,提高风险管理水平。
📄 摘要(原文)
Foundation models have transformed domains from language to genomics by learning general-purpose representations from large-scale, heterogeneous data. We introduce TradeFM, a 524M-parameter generative Transformer that brings this paradigm to market microstructure, learning directly from billions of trade events across >9K equities. To enable cross-asset generalization, we develop scale-invariant features and a universal tokenization scheme that map the heterogeneous, multi-modal event stream of order flow into a unified discrete sequence -- eliminating asset-specific calibration. Integrated with a deterministic market simulator, TradeFM-generated rollouts reproduce key stylized facts of financial returns, including heavy tails, volatility clustering, and absence of return autocorrelation. Quantitatively, TradeFM achieves 2-3x lower distributional error than Compound Hawkes baselines and generalizes zero-shot to geographically out-of-distribution APAC markets with moderate perplexity degradation. Together, these results suggest that scale-invariant trade representations capture transferable structure in market microstructure, opening a path toward synthetic data generation, stress testing, and learning-based trading agents.