A Multimodal Vision Transformer-based Modeling Framework for Prediction of Fluid Flows in Energy Systems

📄 arXiv: 2604.02483 📥 PDF

作者: Kiran Yalamanchi, Shivam Barwey, Ibrahim Jarrah, Pinaki Pal

分类: cs.AI

发布日期: 2026-04-06


💡 一句话要点

提出基于多模态Vision Transformer的流体预测框架,加速能量系统CFD仿真。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱八:物理动画 (Physics-based Animation) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 流体流动预测 Vision Transformer 多模态学习 计算流体动力学 能量系统 SwinV2-UNet

📋 核心要点

  1. 复杂能量系统中流体流动CFD仿真计算成本高昂,面临强非线性和多尺度多物理场耦合的挑战。
  2. 论文提出基于Vision Transformer的建模框架,利用多模态数据,预测流体流动,加速CFD仿真过程。
  3. 实验表明,该模型能够跨分辨率和模态泛化,准确预测流动演化,并从有限视图重建缺失信息。

📝 摘要(中文)

本文提出了一种基于Transformer的流体流动预测建模框架,并将其应用于往复式发动机相关的高压气体喷射现象。该方法采用分层Vision Transformer (SwinV2-UNet) 架构,处理来自多精度模拟的多模态流动数据集。模型架构以显式编码数据模态和时间增量的辅助tokens为条件。模型性能在两个不同的任务上进行评估:(1) 时空展开,模型自回归地预测未来时刻的流动状态;(2) 特征转换,模型从观察到的场/视图推断未观察到的场/视图。我们在氩气射流注入氮气环境的内部CFD模拟生成的多模态数据集上训练单独的模型,涵盖多个网格分辨率、湍流模型和状态方程。由此产生的数据驱动模型学会了跨分辨率和模态进行泛化,准确地预测流动演化并从有限的视图重建缺失的流场信息。这项工作展示了如何调整基于大型Vision Transformer的模型来推进复杂流体流动系统的预测建模。

🔬 方法详解

问题定义:论文旨在解决复杂能量系统中流体流动预测问题,传统CFD仿真计算成本高昂,难以满足实时性要求。现有方法难以有效利用多模态数据,且泛化能力有限。

核心思路:论文的核心思路是利用Vision Transformer强大的特征提取和建模能力,学习多模态流体数据的时空演化规律。通过将不同分辨率、湍流模型和状态方程的CFD仿真结果作为多模态输入,训练模型学习跨模态的泛化能力,从而实现快速准确的流体流动预测。

技术框架:该框架基于SwinV2-UNet架构,这是一个分层的Vision Transformer。整体流程包括:1) 构建多模态流体数据集,包含不同分辨率、湍流模型和状态方程的CFD仿真结果;2) 使用SwinV2-UNet提取多模态数据的特征;3) 使用辅助tokens编码数据模态和时间增量,作为模型的条件输入;4) 训练模型进行时空展开和特征转换任务;5) 评估模型性能。

关键创新:关键创新在于将Vision Transformer应用于流体流动预测,并提出了一种多模态建模框架。通过显式编码数据模态和时间增量,模型能够更好地学习多模态数据之间的关系,并实现跨模态的泛化。此外,SwinV2-UNet的分层结构能够有效处理不同尺度的流体流动特征。

关键设计:模型采用SwinV2-UNet作为主干网络,使用辅助tokens编码数据模态和时间增量。损失函数根据具体任务选择,例如,时空展开任务可以使用均方误差损失函数,特征转换任务可以使用L1损失函数。训练过程中,采用Adam优化器,并设置合适的学习率和batch size。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文在氩气射流注入氮气环境的CFD仿真数据集上进行了实验,结果表明,该模型能够准确预测流动演化,并从有限的视图重建缺失的流场信息。该模型能够跨分辨率和模态进行泛化,显著优于传统CFD仿真方法,为复杂流体流动系统的预测建模提供了新的思路。

🎯 应用场景

该研究成果可应用于能量系统设计、优化和控制等领域。例如,可以用于快速预测发动机燃烧过程中的流体流动,从而优化燃烧效率和减少排放。此外,还可以应用于航空航天、化工等领域,加速相关产品的研发和设计过程,具有重要的实际应用价值和潜在的经济效益。

📄 摘要(原文)

Computational fluid dynamics (CFD) simulations of complex fluid flows in energy systems are prohibitively expensive due to strong nonlinearities and multiscale-multiphysics interactions. In this work, we present a transformer-based modeling framework for prediction of fluid flows, and demonstrate it for high-pressure gas injection phenomena relevant to reciprocating engines. The approach employs a hierarchical Vision Transformer (SwinV2-UNet) architecture that processes multimodal flow datasets from multi-fidelity simulations. The model architecture is conditioned on auxiliary tokens explicitly encoding the data modality and time increment. Model performance is assessed on two different tasks: (1) spatiotemporal rollouts, where the model autoregressively predicts the flow state at future times; and (2) feature transformation, where the model infers unobserved fields/views from observed fields/views. We train separate models on multimodal datasets generated from in-house CFD simulations of argon jet injection into a nitrogen environment, encompassing multiple grid resolutions, turbulence models, and equations of state. The resulting data-driven models learn to generalize across resolutions and modalities, accurately forecasting the flow evolution and reconstructing missing flow-field information from limited views. This work demonstrates how large vision transformer-based models can be adapted to advance predictive modeling of complex fluid flow systems.