A Multimodal Vision Transformer-based Modeling Framework for Prediction of Fluid Flows in Energy Systems

作者: Kiran Yalamanchi, Shivam Barwey, Ibrahim Jarrah, Pinaki Pal

分类: cs.AI

发布日期: 2026-04-06

💡 一句话要点

提出基于多模态Vision Transformer的流体预测框架，加速能量系统CFD仿真。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱八：物理动画 (Physics-based Animation) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 流体流动预测 Vision Transformer 多模态学习 计算流体动力学 能量系统 SwinV2-UNet

📋 核心要点

复杂能量系统中流体流动CFD仿真计算成本高昂，面临强非线性和多尺度多物理场耦合的挑战。
论文提出基于Vision Transformer的建模框架，利用多模态数据，预测流体流动，加速CFD仿真过程。
实验表明，该模型能够跨分辨率和模态泛化，准确预测流动演化，并从有限视图重建缺失信息。

📝 摘要（中文）

本文提出了一种基于Transformer的流体流动预测建模框架，并将其应用于往复式发动机相关的高压气体喷射现象。该方法采用分层Vision Transformer (SwinV2-UNet) 架构，处理来自多精度模拟的多模态流动数据集。模型架构以显式编码数据模态和时间增量的辅助tokens为条件。模型性能在两个不同的任务上进行评估：(1) 时空展开，模型自回归地预测未来时刻的流动状态；(2) 特征转换，模型从观察到的场/视图推断未观察到的场/视图。我们在氩气射流注入氮气环境的内部CFD模拟生成的多模态数据集上训练单独的模型，涵盖多个网格分辨率、湍流模型和状态方程。由此产生的数据驱动模型学会了跨分辨率和模态进行泛化，准确地预测流动演化并从有限的视图重建缺失的流场信息。这项工作展示了如何调整基于大型Vision Transformer的模型来推进复杂流体流动系统的预测建模。

🔬 方法详解

问题定义：论文旨在解决复杂能量系统中流体流动预测问题，传统CFD仿真计算成本高昂，难以满足实时性要求。现有方法难以有效利用多模态数据，且泛化能力有限。

核心思路：论文的核心思路是利用Vision Transformer强大的特征提取和建模能力，学习多模态流体数据的时空演化规律。通过将不同分辨率、湍流模型和状态方程的CFD仿真结果作为多模态输入，训练模型学习跨模态的泛化能力，从而实现快速准确的流体流动预测。

技术框架：该框架基于SwinV2-UNet架构，这是一个分层的Vision Transformer。整体流程包括：1) 构建多模态流体数据集，包含不同分辨率、湍流模型和状态方程的CFD仿真结果；2) 使用SwinV2-UNet提取多模态数据的特征；3) 使用辅助tokens编码数据模态和时间增量，作为模型的条件输入；4) 训练模型进行时空展开和特征转换任务；5) 评估模型性能。

关键创新：关键创新在于将Vision Transformer应用于流体流动预测，并提出了一种多模态建模框架。通过显式编码数据模态和时间增量，模型能够更好地学习多模态数据之间的关系，并实现跨模态的泛化。此外，SwinV2-UNet的分层结构能够有效处理不同尺度的流体流动特征。

关键设计：模型采用SwinV2-UNet作为主干网络，使用辅助tokens编码数据模态和时间增量。损失函数根据具体任务选择，例如，时空展开任务可以使用均方误差损失函数，特征转换任务可以使用L1损失函数。训练过程中，采用Adam优化器，并设置合适的学习率和batch size。

🖼️ 关键图片

📊 实验亮点

论文在氩气射流注入氮气环境的CFD仿真数据集上进行了实验，结果表明，该模型能够准确预测流动演化，并从有限的视图重建缺失的流场信息。该模型能够跨分辨率和模态进行泛化，显著优于传统CFD仿真方法，为复杂流体流动系统的预测建模提供了新的思路。

🎯 应用场景

该研究成果可应用于能量系统设计、优化和控制等领域。例如，可以用于快速预测发动机燃烧过程中的流体流动，从而优化燃烧效率和减少排放。此外，还可以应用于航空航天、化工等领域，加速相关产品的研发和设计过程，具有重要的实际应用价值和潜在的经济效益。

📄 摘要（原文）

Computational fluid dynamics (CFD) simulations of complex fluid flows in energy systems are prohibitively expensive due to strong nonlinearities and multiscale-multiphysics interactions. In this work, we present a transformer-based modeling framework for prediction of fluid flows, and demonstrate it for high-pressure gas injection phenomena relevant to reciprocating engines. The approach employs a hierarchical Vision Transformer (SwinV2-UNet) architecture that processes multimodal flow datasets from multi-fidelity simulations. The model architecture is conditioned on auxiliary tokens explicitly encoding the data modality and time increment. Model performance is assessed on two different tasks: (1) spatiotemporal rollouts, where the model autoregressively predicts the flow state at future times; and (2) feature transformation, where the model infers unobserved fields/views from observed fields/views. We train separate models on multimodal datasets generated from in-house CFD simulations of argon jet injection into a nitrogen environment, encompassing multiple grid resolutions, turbulence models, and equations of state. The resulting data-driven models learn to generalize across resolutions and modalities, accurately forecasting the flow evolution and reconstructing missing flow-field information from limited views. This work demonstrates how large vision transformer-based models can be adapted to advance predictive modeling of complex fluid flow systems.

A Multimodal Vision Transformer-based Modeling Framework for Prediction of Fluid Flows in Energy Systems

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理