Sparse identification of nonlinear dynamics and Koopman operators with Shallow Recurrent Decoder Networks
作者: Mars Liyao Gao, Jan P. Williams, J. Nathan Kutz
分类: cs.LG, cs.AI, math.DS
发布日期: 2025-01-23 (更新: 2025-04-01)
💡 一句话要点
提出SINDy-SHRED,通过浅层循环解码网络进行非线性动力学和Koopman算子的稀疏辨识。
🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction)
关键词: 稀疏辨识 非线性动力学 Koopman算子 循环解码网络 时空数据建模
📋 核心要点
- 真实世界时空数据建模面临高维度、噪声、部分观测和昂贵数据采集等挑战。
- SINDy-SHRED联合解决传感和模型辨识问题,利用GRU建模稀疏测量,浅层解码器重建时空场,并引入SINDy正则化。
- 实验表明,SINDy-SHRED在准确性、数据效率和训练时间上优于现有深度学习模型,并能发现新的物理模型。
📝 摘要(中文)
本文提出了一种名为SINDy-SHRED(具有浅层循环解码网络的非线性动力学稀疏辨识)的方法,旨在联合解决传感和模型辨识问题,该方法实现简单、计算高效且性能稳健。SINDy-SHRED使用门控循环单元(GRU)来建模稀疏传感器测量的时间序列,并使用浅层解码器网络从潜在状态空间重建完整的时空场。该算法引入了基于SINDy的正则化,使得潜在空间逐步收敛到SINDy类的函数,前提是投影保持在集合内。通过将SINDy限制为线性模型,可以生成Koopman-SHRED模型。SINDy-SHRED能够:(i)为复杂的时空动力学学习一个简约且低维潜在空间的符号化和可解释的生成模型;(ii)即使对于众所周知的物理系统,也能发现新的物理模型;(iii)通过观察到的全局凸损失图景,实现可证明的鲁棒收敛;(iv)以更少的模型参数实现卓越的准确性、数据效率和训练时间。我们在偏微分方程数据(如湍流)、海面温度的真实传感器测量以及直接视频数据上进行了系统的实验研究。潜在状态动力学的可解释SINDy和Koopman模型能够实现稳定和准确的长期视频预测,在准确性、训练时间和数据需求方面优于所有当前的基线深度学习模型,包括卷积LSTM、PredRNN、ResNet和SimVP。
🔬 方法详解
问题定义:论文旨在解决从高维、噪声、不完全观测的时空数据中,高效且准确地辨识非线性动力学模型的问题。现有方法,如传统的深度学习模型(Convolutional LSTM, PredRNN, ResNet, SimVP),通常需要大量数据和计算资源,且缺乏可解释性,难以发现潜在的物理规律。
核心思路:论文的核心思路是将稀疏辨识非线性动力学(SINDy)方法与循环神经网络(RNN)相结合,利用RNN学习数据的潜在低维表示,并使用SINDy从该潜在空间中提取简洁的动力学方程。通过浅层解码器网络,将潜在空间映射回原始高维空间,实现时空场的重建。这种方法旨在结合深度学习的表征能力和SINDy的可解释性,从而在数据效率、计算效率和模型可解释性之间取得平衡。
技术框架:SINDy-SHRED的整体框架包含以下几个主要模块: 1. 编码器(Encoder):通常是一个或多个卷积层,用于将原始高维时空数据压缩到低维潜在空间。 2. 循环神经网络(RNN):使用门控循环单元(GRU)对潜在空间的序列数据进行建模,学习潜在状态的动态演化。 3. SINDy正则化:在RNN的训练过程中,引入基于SINDy的正则化项,鼓励潜在空间中的动态演化遵循稀疏的动力学方程。 4. 解码器(Decoder):一个浅层神经网络,用于将潜在状态映射回原始高维空间,重建时空场。 5. 损失函数:包括重建损失(衡量重建时空场的准确性)和SINDy正则化项(鼓励潜在空间动态的稀疏性)。
关键创新:该方法最重要的创新点在于将SINDy方法与深度学习模型相结合,从而在数据效率、计算效率和模型可解释性方面实现了显著提升。与传统的深度学习模型相比,SINDy-SHRED能够学习到更简洁、更可解释的动力学模型,并且需要更少的数据进行训练。此外,SINDy-SHRED还能够发现新的物理模型,即使对于已知的物理系统。
关键设计: 1. SINDy正则化:通过在损失函数中添加L1正则化项,鼓励潜在空间动态的稀疏性。正则化强度是一个关键参数,需要根据具体问题进行调整。 2. 浅层解码器网络:使用浅层网络可以减少模型参数,提高训练效率,并避免过拟合。 3. 损失函数权重:重建损失和SINDy正则化项的权重需要仔细调整,以平衡重建准确性和模型稀疏性。 4. GRU网络结构:GRU的隐藏层大小和层数会影响模型的表征能力和训练难度,需要根据具体问题进行选择。
🖼️ 关键图片
📊 实验亮点
SINDy-SHRED在湍流、海面温度和视频数据等多个数据集上进行了实验验证。结果表明,SINDy-SHRED在准确性、数据效率和训练时间方面均优于现有的深度学习模型,如Convolutional LSTM、PredRNN、ResNet和SimVP。例如,在视频预测任务中,SINDy-SHRED能够实现更准确的长期预测,并且需要的训练数据更少。
🎯 应用场景
SINDy-SHRED具有广泛的应用前景,包括但不限于:流体动力学建模、气候预测、生物系统建模、机器人控制等。该方法能够从复杂的时空数据中提取简洁且可解释的动力学模型,有助于理解系统的内在机制,并进行准确的预测和控制。此外,SINDy-SHRED还可用于发现新的物理规律,加速科学研究的进程。
📄 摘要(原文)
Modeling real-world spatio-temporal data is exceptionally difficult due to inherent high dimensionality, measurement noise, partial observations, and often expensive data collection procedures. In this paper, we present Sparse Identification of Nonlinear Dynamics with SHallow REcurrent Decoder networks (SINDy-SHRED), a method to jointly solve the sensing and model identification problems with simple implementation, efficient computation, and robust performance. SINDy-SHRED uses Gated Recurrent Units to model the temporal sequence of sparse sensor measurements along with a shallow decoder network to reconstruct the full spatio-temporal field from the latent state space. Our algorithm introduces a SINDy-based regularization for which the latent space progressively converges to a SINDy-class functional, provided the projection remains within the set. In restricting SINDy to a linear model, a Koopman-SHRED model is generated. SINDy-SHRED (i) learns a symbolic and interpretable generative model of a parsimonious and low-dimensional latent space for the complex spatio-temporal dynamics, (ii) discovers new physics models even for well-known physical systems, (iii) achieves provably robust convergence with an observed globally convex loss landscape, and (iv) achieves superior accuracy, data efficiency, and training time, all with fewer model parameters. We conduct systematic experimental studies on PDE data such as turbulent flows, real-world sensor measurements for sea surface temperature, and direct video data. The interpretable SINDy and Koopman models of latent state dynamics enable stable and accurate long-term video predictions, outperforming all current baseline deep learning models in accuracy, training time, and data requirements, including Convolutional LSTM, PredRNN, ResNet, and SimVP.