Data Language Models: A New Foundation Model Class for Tabular Data
作者: Eda Erol, Giuliano Pezzoli, Ozer Cem Kelahmet
分类: cs.AI
发布日期: 2026-05-07
💡 一句话要点
提出数据语言模型(DLM),为表格数据提供原生理解能力,无需预处理。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 表格数据 基础模型 数据语言模型 原生理解 无预处理
📋 核心要点
- 现有表格数据AI方法依赖预处理,无法原生理解表格结构,限制了模型性能和应用范围。
- 提出数据语言模型(DLM),直接从原始单元格值学习,无需预处理,实现对表格数据的原生理解。
- Schema-1在多个基准测试中超越现有方法,并在行业识别和缺失值重建方面展现出卓越性能。
📝 摘要(中文)
本文介绍了一种新的基础模型类别——数据语言模型(DLM),专门用于表格数据。与现有方法不同,DLM能够原生理解表格数据,无需序列化或预处理,直接从原始单元格值中学习。DLM旨在成为表格数据的AI基础层,支持构建AI模型、智能体和垂直AI应用,从而消除当前原始数据与AI系统之间的预处理流程。论文提出了首个DLM——Schema-1,一个拥有1.4亿参数的模型,在超过230万个合成和真实表格数据集上进行训练。实验表明,Schema-1在行级预测基准测试中优于梯度提升集成、AutoML堆栈以及其他表格基础模型。在缺失值重建方面,Schema-1的重建误差低于所有经典统计方法和前沿大型语言模型,表明对数据集自身分布几何结构的理解比语言模型中编码的世界知识更有助于插补。Schema-1还能仅从原始单元格值可靠地识别任何未见数据集的行业领域,这是之前任何表格模型都无法完成的任务。DLM是AI技术栈中缺失的原生表格理解层。
🔬 方法详解
问题定义:现有表格数据的AI方法,如梯度提升树和表格基础模型,都需要复杂的预处理流程才能使用数据。这些方法无法像语言模型理解文本、视觉模型理解图像那样,原生理解表格数据的结构和语义。因此,如何构建一个能够直接处理原始表格数据,无需预处理的基础模型,是一个关键问题。
核心思路:论文的核心思路是借鉴语言模型的成功经验,构建一个能够“理解”表格数据的模型。该模型应该能够直接从原始单元格值中学习,捕捉表格数据的结构信息和语义关系,从而避免繁琐的预处理步骤。这种“原生理解”能力将为表格数据的AI应用带来极大的便利。
技术框架:论文提出的数据语言模型(DLM)Schema-1,其整体架构未知,但可以推断其包含以下主要模块/阶段:数据输入模块(直接接收原始表格数据),特征提取模块(从单元格值中提取特征),模型训练模块(使用大量表格数据进行训练),以及预测/推理模块(用于执行各种表格数据相关的任务,如行级预测、缺失值重建等)。
关键创新:最重要的技术创新点在于提出了数据语言模型(DLM)的概念,并实现了第一个DLM——Schema-1。与现有表格模型相比,DLM能够原生理解表格数据,无需预处理,这是一种范式的转变。此外,Schema-1在行业识别任务上的表现也证明了其对表格数据语义的深刻理解。
关键设计:Schema-1是一个拥有1.4亿参数的模型,具体网络结构未知。训练数据包括超过230万个合成和真实表格数据集。损失函数和优化算法等技术细节未知。
📊 实验亮点
Schema-1在行级预测基准测试中优于梯度提升集成、AutoML堆栈以及其他表格基础模型。在缺失值重建方面,Schema-1的重建误差低于所有经典统计方法和前沿大型语言模型。Schema-1还能仅从原始单元格值可靠地识别任何未见数据集的行业领域,这是之前任何表格模型都无法完成的任务。这些实验结果表明,DLM在表格数据理解方面具有显著优势。
🎯 应用场景
数据语言模型(DLM)具有广泛的应用前景,包括:自动化数据分析、智能数据集成、企业级AI应用开发等。DLM可以作为表格数据的AI基础层,支持构建各种垂直领域的AI应用,例如金融风控、医疗诊断、市场营销等。通过消除预处理流程,DLM可以大大降低AI应用的开发成本和部署难度,加速AI在各行业的落地。
📄 摘要(原文)
Every major data modality now has a foundation model that understands it natively: text has language models, images have vision models, audio has audio models. Tabular data, the modality on which many consequential real-world AI decisions are made, does not. Every approach to tabular AI today, from gradient-boosted trees to the latest tabular foundation models, requires a preprocessing pipeline before any model can consume the data. None of them understand tabular data as a modality. We introduce the Data Language Model (DLM), the missing foundation model for tabular data. A DLM understands tables the way a language model understands sentences: natively, without serialization or preprocessing, directly from raw cell values. It is the tabular data layer on which AI models, agents, and vertical AI applications can be built, eliminating the preprocessing pipelines that currently stand between raw data and every AI system that consumes it. We present Schema-1, the first DLM: a 140M parameter model trained on more than 2.3M synthetic and real-world tabular datasets. Schema-1 outperforms gradient-boosted ensembles, AutoML stacks, and the tabular foundation models we evaluate on established row-level prediction benchmarks. On missing value reconstruction it achieves lower reconstruction error than all classical statistical methods and frontier large language models on mean performance across conditions, establishing that structural understanding of a dataset's own distributional geometry is more useful for imputation than world knowledge encoded in language. It identifies the industry sector of any unseen dataset from raw cell values alone, reliably across any domain, a task no prior tabular model can perform. It is the native tabular understanding layer that has been missing from the AI stack.