Causality-Induced Positional Encoding for Transformer-Based Representation Learning of Non-Sequential Features

📄 arXiv: 2509.16629v2 📥 PDF

作者: Kaichen Xu, Yihang Du, Mianpeng Liu, Zimu Yu, Xiaobo Sun

分类: cs.LG, q-bio.QM

发布日期: 2025-09-20 (更新: 2025-09-23)

备注: Accepted by NeurIPS 2025

🔗 代码/项目: GITHUB


💡 一句话要点

提出CAPE,通过因果关系建模增强Transformer对非序列化特征的表征学习。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 因果关系 位置编码 Transformer 非序列化特征 双曲空间 结构方程模型 表征学习

📋 核心要点

  1. 现有位置编码方法依赖预定义的token顺序,不适用于具有因果关系的非序列化特征数据。
  2. CAPE通过广义结构方程建模识别特征间的因果结构,并将其嵌入双曲空间以生成因果感知的位置编码。
  3. 实验证明CAPE能有效提升Transformer对非序列化特征数据的处理能力,并具备理论分析支持的优良特性。

📝 摘要(中文)

本文提出了一种名为CAPE的新方法,旨在解决Transformer在处理非序列化但具有因果关系的特征数据时,因现有位置编码方法需要预定义token/特征顺序而受限的问题。CAPE首先利用广义结构方程模型识别非序列化特征之间潜在的因果结构,将其表示为加权有向无环图(DAG)。然后,CAPE将DAG嵌入到双曲空间中,使用基于双曲面模型的方案有效保留其几何结构,从而捕捉因果图的两个重要属性(因果强度和因果特异性)。由此,CAPE为特征生成了具有因果感知的位置编码,并将其转换为旋转形式,以便与Transformer的自注意力机制集成。理论分析表明,CAPE生成的旋转位置编码具有因果距离诱导衰减、因果普遍性诱导衰减以及对位置扰动的鲁棒性这三个有价值的特性,能够增强自注意力机制。在合成数据集和真实数据集上的实验结果表明,CAPE能够有效提升Transformer对非序列化特征数据的处理能力,并验证了其理论特性。

🔬 方法详解

问题定义:现有Transformer模型的位置编码方法需要预先定义token或特征的顺序,这在处理具有因果关系的非序列化特征数据时会遇到困难。例如,在医疗诊断中,各种症状和检查结果之间存在复杂的因果关系,但它们本身并没有固定的顺序。现有方法无法有效利用这些因果信息,导致模型性能受限。

核心思路:CAPE的核心思路是利用因果关系来指导位置编码的生成。通过识别特征之间的因果结构,并将其嵌入到双曲空间中,CAPE能够为每个特征生成具有因果感知的位置编码。这些编码能够反映特征之间的因果强度和因果特异性,从而帮助Transformer更好地理解数据。

技术框架:CAPE的整体框架包括以下几个主要阶段:1) 因果结构学习:使用广义结构方程模型(Generalized Structural Equation Modeling, SEM)从非序列化特征中学习潜在的因果结构,得到一个加权有向无环图(DAG)。2) 双曲空间嵌入:将学习到的DAG嵌入到双曲空间中,利用双曲面模型保留DAG的几何结构,捕捉因果强度和因果特异性。3) 位置编码生成:基于双曲空间中的嵌入,为每个特征生成因果感知的位置编码。4) 旋转位置编码转换:将生成的位置编码转换为旋转形式,以便与Transformer的自注意力机制集成。

关键创新:CAPE最重要的技术创新在于将因果关系引入到Transformer的位置编码中。与传统的依赖预定义顺序的位置编码方法不同,CAPE能够自动学习特征之间的因果结构,并利用这些结构来指导位置编码的生成。这种方法能够更好地处理具有因果关系的非序列化特征数据。

关键设计:在因果结构学习阶段,CAPE使用广义结构方程模型来估计特征之间的因果关系。在双曲空间嵌入阶段,CAPE使用双曲面模型来保留DAG的几何结构,并利用双曲距离来衡量特征之间的因果距离。在位置编码生成阶段,CAPE将双曲空间中的嵌入转换为旋转位置编码,以便与Transformer的自注意力机制集成。损失函数的设计旨在最大化因果结构的保留程度和位置编码的表达能力。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

CAPE在合成数据集和真实数据集上都取得了显著的性能提升。在合成数据集上,CAPE验证了其理论特性,例如因果距离诱导衰减和因果普遍性诱导衰减。在真实数据集上,CAPE相比于传统的Transformer模型和其他位置编码方法,在分类和回归任务上都取得了更高的准确率和更低的误差。

🎯 应用场景

CAPE具有广泛的应用前景,例如:医疗诊断(利用症状和检查结果之间的因果关系进行疾病预测)、金融风险评估(分析各种经济指标之间的因果关系以预测市场风险)、社交网络分析(挖掘用户行为之间的因果关系以进行用户画像和推荐)等。CAPE能够提升Transformer在处理具有因果关系的非序列化数据时的性能,从而为这些领域带来实际价值。

📄 摘要(原文)

Positional encoding is essential for supplementing transformer with positional information of tokens. Existing positional encoding methods demand predefined token/feature order, rendering them unsuitable for real-world data with non-sequential yet causally-related features. To address this limitation, we propose CAPE, a novel method that identifies underlying causal structure over non-sequential features as a weighted directed acyclic graph (DAG) using generalized structural equation modeling. The DAG is then embedded in hyperbolic space where its geometric structure is well-preserved using a hyperboloid model-based approach that effectively captures two important causal graph properties (causal strength & causal specificity). This step yields causality-aware positional encodings for the features, which are converted into their rotary form for integrating with transformer's self-attention mechanism. Theoretical analysis reveals that CAPE-generated rotary positional encodings possess three valuable properties for enhanced self-attention, including causal distance-induced attenuation, causal generality-induced attenuation, and robustness to positional disturbances. We evaluate CAPE over both synthetic and real-word datasets, empirically demonstrating its theoretical properties and effectiveness in enhancing transformer for data with non-sequential features. Our code is available at https://github.com/Catchxu/CAPE.