FEAT: A Linear-Complexity Foundation Model for Extremely Large Structured Data
作者: Zhenghang Song, Tang Qian, Lu Chen, Yushuai Li, Zhengke Hu, Bingbing Fang, Yumeng Song, Junbo Zhao, Sheng Zhang, Tianyi Li
分类: cs.LG, cs.AI
发布日期: 2026-03-17
💡 一句话要点
FEAT:一种线性复杂度的大规模结构化数据基础模型
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 结构化数据 基础模型 线性复杂度 Mamba 注意力机制 因果模型 零样本学习
📋 核心要点
- 现有大型结构化数据模型依赖高复杂度自注意力或易损失表示质量的线性模型,且合成数据预训练泛化性差。
- FEAT提出一种线性复杂度的双轴架构,结合自适应融合双向Mamba-2和卷积门控线性注意力,兼顾局部依赖和全局记忆。
- FEAT在11个真实数据集上表现优于现有方法,零样本性能提升显著,推理速度提升高达40倍,展现线性扩展能力。
📝 摘要(中文)
结构化数据是医疗、金融、电商和科学数据管理的基础。大型结构化数据模型(LDM)将基础模型范式扩展到统一异构数据集,用于分类、回归和决策支持等任务。然而,现有的LDM面临主要限制。首先,大多数依赖于样本级的自注意力,其O(N^2)的复杂度限制了样本数量。其次,线性序列模型通常由于隐藏状态压缩和人为因果偏差而降低表示质量。第三,仅使用合成数据进行预训练通常无法匹配真实世界的数据分布。我们提出了FEAT,一种线性复杂度的大规模结构化数据基础模型。FEAT引入了一种多层双轴架构,用混合线性编码取代二次注意力。该架构结合了自适应融合双向Mamba-2(AFBM)用于局部样本依赖关系,以及卷积门控线性注意力(Conv-GLA)用于全局记忆。这种设计实现了线性复杂度的跨样本建模,同时保留了富有表现力的表示。为了提高鲁棒性,FEAT采用了混合结构因果模型流程和一个稳定的重构目标。在11个真实世界数据集上的实验表明,FEAT在零样本性能方面始终优于基线,同时线性扩展并实现了高达40倍的更快推理。
🔬 方法详解
问题定义:现有的大型结构化数据模型(LDM)在处理海量数据时面临计算复杂度瓶颈,主要由于依赖于样本级的自注意力机制,其复杂度为O(N^2),限制了可处理的样本数量。此外,线性序列模型虽然降低了复杂度,但通常会牺牲表示能力,导致性能下降。同时,仅使用合成数据进行预训练的模型在真实世界数据上的泛化能力较差。
核心思路:FEAT的核心思路是设计一种线性复杂度的架构,既能高效地处理大规模结构化数据,又能保持良好的表示能力。通过结合局部依赖建模和全局记忆机制,以及采用混合结构因果模型流程和稳定的重构目标,提高模型的鲁棒性和泛化能力。
技术框架:FEAT采用多层双轴架构,主要包含以下模块:1) 自适应融合双向Mamba-2(AFBM):用于捕捉局部样本依赖关系。2) 卷积门控线性注意力(Conv-GLA):用于学习全局记忆。3) 混合结构因果模型流程:用于提高模型的鲁棒性。4) 稳定的重构目标:用于优化模型训练。整体流程是,输入数据首先经过AFBM模块提取局部特征,然后通过Conv-GLA模块学习全局信息,最后通过混合结构因果模型流程和稳定的重构目标进行优化。
关键创新:FEAT的关键创新在于其双轴架构,该架构将自适应融合双向Mamba-2(AFBM)和卷积门控线性注意力(Conv-GLA)相结合,实现了线性复杂度的跨样本建模,同时保留了富有表现力的表示。与传统的自注意力机制相比,FEAT的复杂度从O(N^2)降低到O(N),从而可以处理更大规模的数据。与传统的线性序列模型相比,FEAT通过结合局部依赖和全局记忆,避免了表示能力的下降。
关键设计:AFBM模块采用双向Mamba-2结构,并引入自适应融合机制,以更好地捕捉局部样本依赖关系。Conv-GLA模块采用卷积操作和门控机制,以有效地学习全局信息。混合结构因果模型流程包括因果发现、因果推理和因果干预等步骤,以提高模型的鲁棒性。稳定的重构目标采用L1损失函数,以避免梯度消失或爆炸的问题。
🖼️ 关键图片
📊 实验亮点
FEAT在11个真实世界数据集上的实验结果表明,其在零样本性能方面始终优于基线方法,并且实现了线性扩展。具体而言,FEAT在推理速度方面实现了高达40倍的提升,这使得它能够处理更大规模的数据,并在实际应用中具有更高的效率。这些实验结果证明了FEAT的有效性和优越性。
🎯 应用场景
FEAT在医疗、金融、电商和科学数据管理等领域具有广泛的应用前景。例如,在医疗领域,可以用于疾病诊断、药物研发和个性化治疗;在金融领域,可以用于风险评估、欺诈检测和信用评分;在电商领域,可以用于用户行为分析、商品推荐和销售预测;在科学数据管理领域,可以用于数据挖掘、知识发现和科学研究。FEAT的线性复杂度和高性能使其能够处理大规模的真实世界数据,为这些领域的应用带来实际价值。
📄 摘要(原文)
Structured data is foundational to healthcare, finance, e-commerce, and scientific data management. Large structured-data models (LDMs) extend the foundation model paradigm to unify heterogeneous datasets for tasks such as classification, regression, and decision support. However, existing LDMs face major limitations. First, most rely on sample-wise self-attention, whose O(N^2) complexity limits the sample count. Second, linear sequence models often degrade representations due to hidden-state compression and artificial causal bias. Third, synthetic-only pre-training often fails to match real-world distributions. We propose FEAT, a linear-complexity foundation model for extremely large structured data. FEAT introduces a multi-layer dual-axis architecture that replaces quadratic attention with hybrid linear encoding. The architecture combines adaptive-fusion bi-Mamba-2 (AFBM) for local sample dependencies and convolutional gated linear attention (Conv-GLA) for global memory. This design enables linear-complexity cross-sample modeling while preserving expressive representations. To improve robustness, FEAT adopts a hybrid structural causal model pipeline and a stable reconstruction objective. Experiments on 11 real-world datasets show that FEAT consistently outperforms baselines in zero-shot performance, while scaling linearly and achieving up to 40x faster inference.