Separable neural architectures as a primitive for unified predictive and generative intelligence
作者: Reza T. Batley, Apurba Sarker, Rajib Mostakim, Andrew Klichine, Sourav Saha
分类: cs.LG, cs.AI
发布日期: 2026-03-12
💡 一句话要点
提出可分离神经架构(SNA),统一预测和生成智能,适用于物理、语言和感知等领域。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱八:物理动画 (Physics-based Animation)
关键词: 可分离神经架构 结构归纳偏置 预测智能 生成智能 混沌系统建模 张量分解 自主导航
📋 核心要点
- 现有神经架构通常是整体式的,未能有效利用智能系统内在的可分解结构,限制了其泛化能力。
- 论文提出可分离神经架构(SNA),通过约束交互阶数和张量秩,将高维映射分解为低元组件,实现结构归纳偏置。
- SNA在自主导航、微结构生成、湍流建模和语言建模等多个领域表现出优异性能,验证了其通用性和有效性。
📝 摘要(中文)
智能系统在物理、语言和感知等领域通常表现出可分解的结构,但传统上使用整体神经架构建模,未能显式利用这种结构。可分离神经架构(SNA)通过形式化一个表示类来解决这个问题,该表示类统一了加性、二次和张量分解的神经模型。通过约束交互阶数和张量秩,SNA施加了一种结构归纳偏置,将高维映射分解为低元组件。可分离性不必是系统本身的属性:它通常出现在系统表达的坐标或表示中。关键是,这种坐标感知公式揭示了混沌时空动力学和语言自回归之间的结构类比。通过将连续物理状态视为平滑、可分离的嵌入,SNA能够对混沌系统进行分布建模。这种方法减轻了确定性算子的非物理漂移特性,同时仍然适用于离散序列。这种方法在四个领域展示了其组合通用性:通过强化学习实现的自主航点导航、多功能微结构的逆向生成、湍流的分布建模和神经语言建模。这些结果确立了可分离神经架构作为预测和生成智能的领域无关的基元,能够统一确定性和分布表示。
🔬 方法详解
问题定义:现有神经架构在建模具有可分解结构的智能系统时,通常采用整体式方法,忽略了系统内在的结构信息。这导致模型参数量大、泛化能力弱,难以有效处理高维复杂问题。尤其是在物理系统建模中,确定性算子容易产生非物理漂移,而传统的分布建模方法又难以应用于离散序列。
核心思路:论文的核心思路是利用可分离神经架构(SNA)来显式地建模系统中的可分解结构。SNA通过约束交互阶数和张量秩,将高维映射分解为低元组件,从而降低模型复杂度,提高泛化能力。这种方法不仅适用于具有可分离结构的系统,也适用于通过坐标变换或表示学习将系统转化为可分离形式的情况。
技术框架:SNA的核心是一个可分离的函数表示,它可以统一表示加性、二次和张量分解的神经模型。整体框架包括以下几个步骤:1) 将输入数据进行嵌入,得到可分离的表示;2) 使用SNA对嵌入后的数据进行建模,学习系统中的可分解结构;3) 根据具体任务,对SNA的输出进行处理,得到最终的预测或生成结果。该框架可以应用于各种领域,包括物理系统建模、语言建模和控制等。
关键创新:SNA的关键创新在于其可分离的函数表示,它能够显式地建模系统中的可分解结构。与传统的整体式神经架构相比,SNA具有更强的表达能力和更好的泛化能力。此外,SNA还能够统一处理确定性和分布表示,使其能够应用于更广泛的领域。坐标感知公式的引入,揭示了混沌时空动力学和语言自回归之间的结构类比,为跨领域知识迁移提供了新的思路。
关键设计:SNA的关键设计包括:1) 交互阶数的选择:交互阶数决定了SNA能够建模的最高阶交互关系。通常情况下,选择较低的交互阶数可以降低模型复杂度,提高泛化能力。2) 张量秩的约束:张量秩决定了SNA的表达能力。通过约束张量秩,可以避免模型过拟合。3) 损失函数的设计:损失函数需要根据具体任务进行设计。例如,在物理系统建模中,可以使用物理约束作为正则项,以保证模型的物理合理性。4) 优化算法的选择:可以使用各种优化算法来训练SNA,例如梯度下降法、Adam算法等。
🖼️ 关键图片
📊 实验亮点
论文在四个领域进行了实验验证:自主航点导航、多功能微结构的逆向生成、湍流的分布建模和神经语言建模。实验结果表明,SNA在这些领域都取得了优异的性能,证明了其通用性和有效性。例如,在湍流建模中,SNA能够更准确地预测湍流的演化,并减轻确定性算子的非物理漂移特性。
🎯 应用场景
该研究成果具有广泛的应用前景,可应用于自主导航、材料设计、湍流建模、语言建模等领域。在自主导航中,SNA可以提高导航系统的鲁棒性和效率。在材料设计中,SNA可以加速新材料的发现和优化。在湍流建模中,SNA可以提高湍流预测的准确性。在语言建模中,SNA可以提高语言模型的生成质量。
📄 摘要(原文)
Intelligent systems across physics, language and perception often exhibit factorisable structure, yet are typically modelled by monolithic neural architectures that do not explicitly exploit this structure. The separable neural architecture (SNA) addresses this by formalising a representational class that unifies additive, quadratic and tensor-decomposed neural models. By constraining interaction order and tensor rank, SNAs impose a structural inductive bias that factorises high-dimensional mappings into low-arity components. Separability need not be a property of the system itself: it often emerges in the coordinates or representations through which the system is expressed. Crucially, this coordinate-aware formulation reveals a structural analogy between chaotic spatiotemporal dynamics and linguistic autoregression. By treating continuous physical states as smooth, separable embeddings, SNAs enable distributional modelling of chaotic systems. This approach mitigates the nonphysical drift characteristics of deterministic operators whilst remaining applicable to discrete sequences. The compositional versatility of this approach is demonstrated across four domains: autonomous waypoint navigation via reinforcement learning, inverse generation of multifunctional microstructures, distributional modelling of turbulent flow and neural language modelling. These results establish the separable neural architecture as a domain-agnostic primitive for predictive and generative intelligence, capable of unifying both deterministic and distributional representations.