Prediction of Diffusion Coefficients in Mixtures with Tensor Completion

📄 arXiv: 2602.23142v1 📥 PDF

作者: Zeno Romero, Kerstin Münnemann, Hans Hasse, Fabian Jirasek

分类: cs.LG

发布日期: 2026-02-26


💡 一句话要点

提出混合张量补全方法,结合贝叶斯框架和主动学习,提升混合物扩散系数预测精度。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱八:物理动画 (Physics-based Animation)

关键词: 扩散系数预测 张量补全 贝叶斯框架 主动学习 混合物 热物理性质 机器学习

📋 核心要点

  1. 现有矩阵补全方法(MCM)在预测扩散系数时,依赖大量实验数据,且仅限于单温度预测,限制了其应用。
  2. 论文提出混合张量补全方法(TCM),利用Tucker分解和贝叶斯框架,结合半经验模型作为先验知识,实现温度依赖的扩散系数预测。
  3. 通过主动学习策略获取新数据,扩展实验数据库,显著提升了TCM的预测精度,验证了数据高效ML方法结合自适应实验的潜力。

📝 摘要(中文)

预测混合物中的扩散系数对于许多应用至关重要,但实验数据仍然稀缺。机器学习(ML)为成熟的半经验模型提供了有希望的替代方案。在ML模型中,矩阵补全方法(MCM)已证明在预测热物理性质(包括二元混合物中的扩散系数)方面有效。然而,MCM仅限于单温度预测,并且其准确性在很大程度上取决于每个目标温度下高质量实验数据的可用性。本文提出了一种混合张量补全方法(TCM),用于预测二元混合物中无限稀释时温度相关的扩散系数。该TCM采用Tucker分解,并在298 K、313 K和333 K下二元系统中无限稀释时扩散系数的实验数据上进行联合训练。半经验SEGWE模型的预测结果作为贝叶斯训练框架内的先验知识。然后,TCM线性外推到268 K和378 K之间的任何温度,与所有研究温度下的既定模型相比,实现了显着提高的预测精度。为了进一步提高预测性能,通过脉冲场梯度(PFG)NMR测量,使用主动学习(AL)策略有针对性地获取新的扩散数据,从而扩展了实验数据库。测量了19种溶质+溶剂系统中无限稀释时的扩散系数,温度为298 K、313 K和333 K。结合这些结果可显着提高TCM的预测准确性。这些发现突出了将数据高效的ML方法与自适应实验相结合以推进传输性质预测建模的潜力。

🔬 方法详解

问题定义:论文旨在解决混合物扩散系数预测中实验数据稀缺和现有矩阵补全方法(MCM)依赖大量单温度实验数据的问题。MCM无法有效利用不同温度下的数据,且预测精度受限于特定温度下高质量数据的可用性。

核心思路:论文的核心思路是利用张量补全方法(TCM)同时处理多个温度下的数据,并结合半经验模型作为贝叶斯框架的先验知识,从而提高预测精度和泛化能力。通过Tucker分解,TCM能够捕捉不同温度下的数据关联性,并利用先验知识约束模型的学习过程。

技术框架:整体框架包括以下几个主要阶段:1) 数据准备:收集现有实验数据,并使用半经验SEGWE模型生成初始预测值。2) 模型训练:使用Tucker分解构建TCM模型,并在贝叶斯框架下,结合实验数据和SEGWE模型的预测值进行联合训练。3) 温度外推:利用TCM模型进行温度外推,预测目标温度下的扩散系数。4) 主动学习:根据模型的不确定性,选择信息量最大的样本进行实验测量,并将新数据加入训练集,迭代优化模型。

关键创新:最重要的技术创新点在于将张量补全方法与贝叶斯框架相结合,并引入半经验模型作为先验知识。这使得模型能够有效利用不同温度下的数据,并减少对大量实验数据的依赖。此外,主动学习策略能够有针对性地获取新数据,进一步提高模型的预测精度。

关键设计:TCM模型采用Tucker分解,将扩散系数张量分解为核心张量和因子矩阵。贝叶斯框架使用高斯过程作为先验分布,并使用马尔可夫链蒙特卡洛(MCMC)方法进行参数估计。主动学习策略使用预测方差作为不确定性度量,选择方差最大的样本进行实验测量。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,与传统半经验模型相比,TCM在预测温度依赖的扩散系数方面具有显著优势。通过主动学习策略,模型预测精度得到进一步提升。具体而言,在所有研究温度下,TCM的预测误差均低于现有模型,并且通过少量新增实验数据,即可实现显著的性能提升。

🎯 应用场景

该研究成果可广泛应用于化工、制药、材料科学等领域,用于优化反应器设计、溶剂选择、分离过程等。通过准确预测混合物扩散系数,可以减少实验成本,加速产品开发,并为新材料的研发提供理论指导。未来,该方法可扩展到更复杂的混合物体系和更广泛的温度范围。

📄 摘要(原文)

Predicting diffusion coefficients in mixtures is crucial for many applications, as experimental data remain scarce, and machine learning (ML) offers promising alternatives to established semi-empirical models. Among ML models, matrix completion methods (MCMs) have proven effective in predicting thermophysical properties, including diffusion coefficients in binary mixtures. However, MCMs are restricted to single-temperature predictions, and their accuracy depends strongly on the availability of high-quality experimental data for each temperature of interest. In this work, we address this challenge by presenting a hybrid tensor completion method (TCM) for predicting temperature-dependent diffusion coefficients at infinite dilution in binary mixtures. The TCM employs a Tucker decomposition and is jointly trained on experimental data for diffusion coefficients at infinite dilution in binary systems at 298 K, 313 K, and 333 K. Predictions from the semi-empirical SEGWE model serve as prior knowledge within a Bayesian training framework. The TCM then extrapolates linearly to any temperature between 268 K and 378 K, achieving markedly improved prediction accuracy compared to established models across all studied temperatures. To further enhance predictive performance, the experimental database was expanded using active learning (AL) strategies for targeted acquisition of new diffusion data by pulsed-field gradient (PFG) NMR measurements. Diffusion coefficients at infinite dilution in 19 solute + solvent systems were measured at 298 K, 313 K, and 333 K. Incorporating these results yields a substantial improvement in the TCM's predictive accuracy. These findings highlight the potential of combining data-efficient ML methods with adaptive experimentation to advance predictive modeling of transport properties.