Prediction of Diffusion Coefficients in Mixtures with Tensor Completion

📄 arXiv: 2602.23142 📥 PDF

作者: Zeno Romero, Kerstin Münnemann, Hans Hasse, Fabian Jirasek

分类: cs.LG

发布日期: 2026-02-28


💡 一句话要点

提出混合张量补全方法,结合贝叶斯框架与主动学习,提升混合物扩散系数预测精度。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱八:物理动画 (Physics-based Animation)

关键词: 扩散系数预测 张量补全 主动学习 贝叶斯框架 混合物 热物理性质 机器学习

📋 核心要点

  1. 现有矩阵补全方法(MCMs)在预测混合物扩散系数时,依赖大量实验数据且无法进行温度泛化。
  2. 提出混合张量补全方法(TCM),利用Tucker分解和贝叶斯框架,结合半经验模型和实验数据进行联合训练。
  3. 通过主动学习策略获取新数据,扩展实验数据库,显著提升了TCM在不同温度下的预测精度。

📝 摘要(中文)

预测混合物中的扩散系数在许多应用中至关重要,但实验数据仍然稀缺。机器学习(ML)为现有的半经验模型提供了有希望的替代方案。在ML模型中,矩阵补全方法(MCMs)已被证明在预测热物理性质(包括二元混合物中的扩散系数)方面有效。然而,MCMs仅限于单温度预测,并且其准确性在很大程度上取决于每个目标温度下高质量实验数据的可用性。本文提出了一种混合张量补全方法(TCM),用于预测二元混合物中无限稀释时温度相关的扩散系数。该TCM采用Tucker分解,并联合训练298 K、313 K和333 K下二元体系中无限稀释时扩散系数的实验数据。半经验SEGWE模型的预测结果作为贝叶斯训练框架中的先验知识。然后,TCM线性外推到268 K和378 K之间的任何温度,与所有研究温度下的已建立模型相比,实现了显着提高的预测精度。为了进一步提高预测性能,通过脉冲场梯度(PFG) NMR测量,使用主动学习(AL)策略有针对性地获取新的扩散数据,从而扩展了实验数据库。测量了19种溶质+溶剂体系在298 K、313 K和333 K下的无限稀释时的扩散系数。结合这些结果可以显着提高TCM的预测精度。这些发现突出了将数据高效的ML方法与自适应实验相结合以推进传输性质预测建模的潜力。

🔬 方法详解

问题定义:论文旨在解决混合物扩散系数预测中实验数据稀缺和现有模型泛化能力不足的问题。传统的矩阵补全方法依赖于大量特定温度下的实验数据,无法有效预测其他温度下的扩散系数。半经验模型虽然可以进行温度泛化,但精度有限。

核心思路:论文的核心思路是将张量补全方法与贝叶斯框架相结合,利用半经验模型的先验知识和实验数据进行联合训练,从而提高预测精度和泛化能力。通过Tucker分解对温度相关的扩散系数进行建模,并使用主动学习策略有针对性地获取新的实验数据,进一步提升模型的性能。

技术框架:整体框架包括以下几个主要步骤:1) 构建初始实验数据库;2) 使用半经验SEGWE模型生成先验知识;3) 利用Tucker分解构建张量补全模型(TCM);4) 在贝叶斯框架下,联合训练TCM和先验知识;5) 使用训练好的TCM进行扩散系数预测;6) 使用主动学习策略选择最有价值的样本进行实验测量,并将新数据添加到数据库中,迭代优化模型。

关键创新:论文的关键创新在于:1) 提出了混合张量补全方法(TCM),能够有效利用温度相关的实验数据进行训练,实现温度泛化;2) 将半经验模型的先验知识融入贝叶斯框架,提高了模型的预测精度;3) 采用主动学习策略,有针对性地获取新的实验数据,降低了实验成本,并进一步提升了模型的性能。

关键设计:TCM采用Tucker分解对扩散系数张量进行建模,其中张量的三个维度分别对应溶质、溶剂和温度。贝叶斯框架使用高斯过程作为先验分布,SEGWE模型的预测结果作为高斯过程的均值。主动学习策略使用不确定性采样,选择预测方差最大的样本进行实验测量。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

通过将TCM与主动学习相结合,显著提高了扩散系数的预测精度。实验结果表明,TCM在不同温度下均优于传统的半经验模型。主动学习策略有效地减少了实验次数,同时保证了模型性能的提升。具体性能提升数据在论文正文中。

🎯 应用场景

该研究成果可广泛应用于化工、材料科学、制药等领域,例如反应器设计、分离过程优化、药物传递系统开发等。准确预测混合物扩散系数有助于提高相关过程的效率和可靠性,降低研发成本,加速新产品开发。

📄 摘要(原文)

Predicting diffusion coefficients in mixtures is crucial for many applications, as experimental data remain scarce, and machine learning (ML) offers promising alternatives to established semi-empirical models. Among ML models, matrix completion methods (MCMs) have proven effective in predicting thermophysical properties, including diffusion coefficients in binary mixtures. However, MCMs are restricted to single-temperature predictions, and their accuracy depends strongly on the availability of high-quality experimental data for each temperature of interest. In this work, we address this challenge by presenting a hybrid tensor completion method (TCM) for predicting temperature-dependent diffusion coefficients at infinite dilution in binary mixtures. The TCM employs a Tucker decomposition and is jointly trained on experimental data for diffusion coefficients at infinite dilution in binary systems at 298 K, 313 K, and 333 K. Predictions from the semi-empirical SEGWE model serve as prior knowledge within a Bayesian training framework. The TCM then extrapolates linearly to any temperature between 268 K and 378 K, achieving markedly improved prediction accuracy compared to established models across all studied temperatures. To further enhance predictive performance, the experimental database was expanded using active learning (AL) strategies for targeted acquisition of new diffusion data by pulsed-field gradient (PFG) NMR measurements. Diffusion coefficients at infinite dilution in 19 solute + solvent systems were measured at 298 K, 313 K, and 333 K. Incorporating these results yields a substantial improvement in the TCM's predictive accuracy. These findings highlight the potential of combining data-efficient ML methods with adaptive experimentation to advance predictive modeling of transport properties.