LimiX: Unleashing Structured-Data Modeling Capability for Generalist Intelligence

📄 arXiv: 2509.03505v2 📥 PDF

作者: Xingxuan Zhang, Gang Ren, Han Yu, Hao Yuan, Hui Wang, Jiansheng Li, Jiayun Wu, Lang Mo, Li Mao, Mingchao Hao, Ningbo Dai, Renzhe Xu, Shuyang Li, Tianyang Zhang, Yue He, Yuanrui Wang, Yunjia Zhang, Zijing Xu, Dongzhe Li, Fang Gao, Hao Zou, Jiandong Liu, Jiashuo Liu, Jiawei Xu, Kaijie Cheng, Kehan Li, Linjun Zhou, Qing Li, Shaohua Fan, Xiaoyu Lin, Xinyan Han, Xuanyue Li, Yan Lu, Yuan Xue, Yuanyuan Jiang, Zimu Wang, Zhenlei Wang, Peng Cui

分类: cs.LG, cs.AI, cs.CL

发布日期: 2025-09-03 (更新: 2025-11-07)

备注: 61 pages


💡 一句话要点

LimiX:释放结构化数据建模能力,迈向通用智能

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 结构化数据建模 表格数据 联合分布 条件预测 预训练 Transformer 通用智能

📋 核心要点

  1. 现有方法在处理结构化数据时,通常需要针对特定任务设计专门的架构和训练流程,缺乏通用性和灵活性。
  2. LimiX将结构化数据建模为变量和缺失值的联合分布,通过查询式的条件预测,实现单个模型处理多种表格任务。
  3. 实验结果表明,LimiX在多个结构化数据基准测试中超越了现有基线,并在各种任务上表现出显著的性能提升。

📝 摘要(中文)

本文提出LimiX-16M和LimiX-2M,作为大型结构化数据模型(LDM)的两个实例。这些模型将结构化数据视为变量和缺失值的联合分布,从而能够通过单个模型,基于查询的条件预测来处理各种表格任务。它们采用带情景条件目标的片段式掩码联合分布建模进行预训练,支持在推理时进行快速、免训练的适应。我们在11个大型结构化数据基准上评估了LimiX模型,这些基准涵盖了样本大小、特征维度、类别数量、类别与数值特征比率、缺失值和样本与特征比率等广泛范围。LimiX-16M始终超越强大的基线,在分类、回归、缺失值插补和数据生成等各种任务中表现出色,通常具有显著优势,同时避免了特定于任务的架构或每个任务的定制训练。值得注意的是,LimiX-2M在严格的计算和内存预算下也能提供强大的结果。我们还提出了LDM的第一个缩放定律研究,揭示了数据和模型缩放如何共同影响下游性能,并为表格基础建模提供定量指导。所有LimiX模型均以Apache 2.0协议公开。

🔬 方法详解

问题定义:现有结构化数据建模方法通常依赖于针对特定任务定制的架构和训练策略,例如,分类任务使用分类模型,回归任务使用回归模型,缺失值填充任务使用专门的填充模型。这种方式缺乏通用性,需要大量的人工设计和调整,难以适应复杂多变的实际应用场景。此外,针对每个任务进行单独训练也带来了巨大的计算成本。

核心思路:LimiX的核心思路是将结构化数据视为一个联合概率分布,其中包含了所有变量及其缺失情况。通过学习这个联合分布,模型可以根据给定的查询条件,预测其他变量的值,从而实现各种不同的任务,例如分类、回归、缺失值填充等。这种方法的核心在于将所有任务统一到一个框架下,避免了针对每个任务进行单独建模的需要。

技术框架:LimiX的整体框架包括预训练和推理两个阶段。在预训练阶段,模型通过掩码联合分布建模(masked joint-distribution modeling)学习结构化数据的联合分布。具体来说,模型随机掩盖一部分变量的值,然后根据剩余变量的值预测被掩盖的变量的值。预训练采用片段式、上下文条件目标,以提高模型的泛化能力。在推理阶段,用户可以通过查询的方式指定需要预测的变量和已知的变量,模型根据学习到的联合分布进行条件预测。

关键创新:LimiX的关键创新在于将结构化数据建模为一个联合分布,并通过查询式的条件预测来处理各种任务。这种方法与现有方法的本质区别在于,它不再需要针对每个任务设计专门的架构和训练流程,而是通过学习一个通用的联合分布来实现各种不同的任务。此外,LimiX还采用了片段式、上下文条件目标进行预训练,进一步提高了模型的泛化能力。

关键设计:LimiX的关键设计包括:1) 使用Transformer架构作为基础模型,以捕捉变量之间的复杂关系;2) 采用掩码联合分布建模进行预训练,以学习结构化数据的联合分布;3) 使用片段式、上下文条件目标,以提高模型的泛化能力;4) 通过查询的方式指定需要预测的变量和已知的变量,实现各种不同的任务。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

LimiX-16M在11个大型结构化数据基准测试中始终超越了现有基线,并在分类、回归、缺失值填充和数据生成等各种任务中表现出显著的性能提升。例如,在某些任务上,LimiX的性能提升幅度超过了10%。此外,LimiX-2M在严格的计算和内存预算下也能提供强大的结果,证明了LimiX的效率和可扩展性。

🎯 应用场景

LimiX在金融、医疗、电商等领域具有广泛的应用前景。例如,在金融领域,可以用于信用评分、欺诈检测等任务;在医疗领域,可以用于疾病诊断、药物研发等任务;在电商领域,可以用于用户画像、商品推荐等任务。LimiX的通用性和灵活性使其能够适应各种不同的应用场景,降低了开发和部署成本,加速了AI技术在各行业的落地。

📄 摘要(原文)

We argue that progress toward general intelligence requires complementary foundation models grounded in language, the physical world, and structured data. This report presents LimiX-16M and LimiX-2M, two instantiations of our large structured-data models (LDMs). Both models treat structured data as a joint distribution over variables and missingness, thus capable of addressing a wide range of tabular tasks through query-based conditional prediction via a single model. They are pretrained using masked joint-distribution modeling with an episodic, context-conditional objective, supporting rapid, training-free adaptation at inference. We evaluate LimiX models across 11 large structured-data benchmarks with broad regimes of sample size, feature dimensionality, class number, categorical-to-numerical feature ratio, missingness, and sample-to-feature ratios. LimiX-16M consistently surpasses strong baselines, as shown in Figure 1 and Figure 2. The superiority holds across a wide range of tasks, such as classification, regression, missing value imputation, and data generation, often by substantial margins, while avoiding task-specific architectures or bespoke training per task. Notably, LimiX-2M delivers strong results under tight compute and memory budgets. We also present the first scaling law study for LDMs, revealing how data and model scaling jointly influence downstream performance and offering quantitative guidance for tabular foundation modeling. All LimiX models are publicly accessible under Apache 2.0.