Orion-Bix: Bi-Axial Attention for Tabular In-Context Learning
作者: Mohamed Bouadi, Pratinav Seth, Aditya Tanna, Vinay Kumar Sankarapu
分类: cs.LG, cs.AI, stat.ML
发布日期: 2025-11-28
🔗 代码/项目: GITHUB
💡 一句话要点
Orion-Bix:面向表格数据的双轴注意力上下文学习框架
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 表格数据 双轴注意力 上下文学习 元学习 少样本学习
📋 核心要点
- 表格数据建模面临混合数据类型、弱特征结构和标注数据稀缺等挑战,限制了模型的泛化能力。
- Orion-Bix通过双轴注意力机制和元学习的上下文推理,学习表格数据的局部和全局依赖关系,提升少样本学习能力。
- 实验表明,Orion-Bix在公共基准测试中表现优异,超越了梯度提升基线,并与先进的表格基础模型具有竞争力。
📝 摘要(中文)
表格数据驱动着大多数现实世界的机器学习应用,但构建通用的表格数据模型仍然困难。混合的数值和类别字段、弱特征结构以及有限的标注数据使得模型扩展和泛化具有挑战性。为此,我们提出了Orion-Bix,一个表格基础模型,它结合了双轴注意力与元学习的上下文推理,用于少样本表格学习。其编码器交替使用标准、分组、分层和关系注意力,并通过多CLS摘要融合它们的输出,以有效地捕获局部和全局依赖关系。一个标签感知的ICL头可以动态调整,并通过分层决策路由扩展到大型标签空间。Orion-Bix在具有因果先验的、结构多样化的合成表格上进行元训练,从而学习跨异构数据的可迁移归纳偏置。作为一个与scikit-learn兼容的基础模型,它优于梯度提升基线,并在公共基准测试中与最先进的表格基础模型保持竞争力,表明具有情景元训练的双轴注意力能够实现鲁棒的、可用于少样本学习的表格学习。
🔬 方法详解
问题定义:现有表格数据模型难以处理混合数据类型、弱特征结构和标注数据稀缺等问题,导致泛化能力不足。特别是,如何在少量样本下快速适应新的表格数据任务是一个挑战。
核心思路:Orion-Bix的核心思路是利用双轴注意力机制捕捉表格数据的局部和全局依赖关系,并结合元学习的上下文推理能力,使模型能够快速适应新的表格数据任务。通过在合成数据上进行元训练,学习可迁移的归纳偏置。
技术框架:Orion-Bix的整体框架包含一个编码器和一个标签感知的ICL头。编码器使用交替的标准、分组、分层和关系注意力层,并通过多CLS摘要融合它们的输出。ICL头则通过分层决策路由扩展到大型标签空间,实现标签感知的上下文学习。
关键创新:Orion-Bix的关键创新在于双轴注意力机制和标签感知的ICL头。双轴注意力能够同时关注行和列的信息,从而更好地捕捉表格数据的结构化特征。标签感知的ICL头则能够根据标签信息动态调整,提高少样本学习的效率。
关键设计:编码器中,不同类型的注意力层交替使用,以捕捉不同粒度的依赖关系。多CLS摘要通过多个分类器对编码器的输出进行汇总,从而更好地保留信息。ICL头使用分层决策路由,将标签空间划分为多个子空间,从而降低计算复杂度。
🖼️ 关键图片
📊 实验亮点
Orion-Bix在公共基准测试中表现优异,超越了梯度提升基线,并在性能上与最先进的表格基础模型具有竞争力。这表明双轴注意力与情景元训练的结合能够有效提升表格数据的少样本学习能力。具体的性能数据和对比基线可以在论文原文中找到。
🎯 应用场景
Orion-Bix可应用于金融、医疗、电商等领域,解决表格数据分析中的少样本学习问题。例如,在信贷风险评估中,可以利用少量客户数据快速构建风险评估模型;在疾病诊断中,可以基于少量病例数据辅助医生进行诊断。该研究有助于降低表格数据建模的成本,提高模型的泛化能力。
📄 摘要(原文)
Tabular data drive most real-world machine learning applications, yet building general-purpose models for them remains difficult. Mixed numeric and categorical fields, weak feature structure, and limited labeled data make scaling and generalization challenging. To this end, we introduce Orion-Bix, a tabular foundation model that combines biaxial attention with meta-learned in-context reasoning for few-shot tabular learning. Its encoder alternates standard, grouped, hierarchical, and relational attention, fusing their outputs through multi-CLS summarization to capture both local and global dependencies efficiently. A label-aware ICL head adapts on the fly and scales to large label spaces via hierarchical decision routing. Meta-trained on synthetically generated, structurally diverse tables with causal priors, Orion-Bix learns transferable inductive biases across heterogeneous data. Delivered as a scikit-learn compatible foundation model, it outperforms gradient-boosting baselines and remains competitive with state-of-the-art tabular foundation models on public benchmarks, showing that biaxial attention with episodic meta-training enables robust, few-shot-ready tabular learning. The model is publicly available at https://github.com/Lexsi-Labs/Orion-BiX .