Are neural scaling laws leading quantum chemistry astray?

📄 arXiv: 2509.26397v1 📥 PDF

作者: Siwoo Lee, Adji Bousso Dieng

分类: physics.chem-ph, cs.LG, physics.comp-ph

发布日期: 2025-09-30


💡 一句话要点

揭示神经标度律在量子化学中面临的挑战:单纯扩大模型和数据规模不足以保证可靠性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 量子化学 神经标度律 机器学习 分子动力学 泛化能力

📋 核心要点

  1. 现有量子化学模型依赖大规模数据和模型扩展,但泛化能力受限,尤其在分子解离等非平衡态。
  2. 研究通过分析H₂的键解离能预测,评估模型在不同数据集和模型规模下的泛化性能。
  3. 实验表明,单纯扩大规模无法保证模型学习到基本的物理规律,需更关注数据质量和模型设计。

📝 摘要(中文)

神经标度律正推动机器学习领域训练越来越大的基础模型,期望在各个领域实现高精度和可迁移的表示,从而完成外推任务。本文通过扩展模型容量和量子化学计算的训练数据,来测试这一承诺在量子化学中的有效性。以最简单的分子H₂的键解离能预测作为泛化任务,研究发现,无论数据集大小或模型容量如何,仅在稳定结构上训练的模型都无法在质量上重现H₂的能量曲线。只有当训练数据明确包含压缩和拉伸的几何结构时,预测结果才大致呈现正确的形状。然而,在包含解离双原子分子的最大、最多样化的数据集上训练的最大基础模型,在简单的双原子分子上表现出严重的失败。最引人注目的是,它们无法重现两个裸质子的简单排斥能量曲线,揭示了它们未能学习电子结构理论中涉及的基本库仑定律。这些结果表明,仅靠扩展规模不足以构建可靠的量子化学模型。

🔬 方法详解

问题定义:论文旨在研究神经标度律在量子化学中的适用性,特别是当模型和训练数据规模扩大时,其预测分子性质的能力是否能得到可靠提升。现有方法过度依赖大规模数据集和模型,但缺乏对模型泛化能力的深入分析,尤其是在分子解离等极端情况下,模型可能无法准确预测能量曲线,甚至违反基本的物理定律。

核心思路:论文的核心思路是通过控制训练数据集的组成(是否包含非平衡态结构)和模型容量,系统性地评估模型在预测H₂键解离能时的表现。通过观察模型在不同条件下的预测结果,分析神经标度律是否能有效提升模型的泛化能力,以及模型是否能学习到基本的物理规律(如库仑定律)。

技术框架:研究的技术框架主要包括以下几个步骤:1) 构建不同规模和组成(包含或不包含解离结构)的量子化学数据集;2) 训练不同容量的神经网络模型;3) 使用训练好的模型预测H₂的键解离能曲线;4) 分析预测结果与真实能量曲线的差异,评估模型的泛化能力和对物理规律的理解。

关键创新:论文的关键创新在于揭示了神经标度律在量子化学中可能存在的局限性。以往的研究通常认为,通过扩大模型和数据规模可以提升模型的性能。然而,该研究表明,单纯的规模扩大可能无法保证模型学习到基本的物理规律,甚至可能导致模型在简单问题上出现严重的错误。这提示我们需要更关注数据质量和模型设计,而不仅仅是规模。

关键设计:论文的关键设计包括:1) 精心设计的训练数据集,包含不同程度的分子拉伸和压缩状态,以考察模型对非平衡态结构的泛化能力;2) 使用不同容量的神经网络模型,以评估模型规模对预测结果的影响;3) 选择H₂分子作为研究对象,因为它结构简单,易于分析,并且其键解离过程涉及基本的物理规律(如库仑定律)。

🖼️ 关键图片

img_0

📊 实验亮点

研究发现,仅在稳定结构上训练的模型无法准确预测H₂的键解离能曲线,即使扩大模型和数据规模也无法解决这个问题。更令人惊讶的是,即使在包含解离双原子分子的最大数据集上训练的最大模型,也无法重现两个裸质子的排斥能量曲线,表明模型未能学习到基本的库仑定律。这些结果有力地证明了神经标度律在量子化学中存在局限性。

🎯 应用场景

该研究对量子化学机器学习模型的开发具有重要指导意义,强调了数据质量和模型设计的关键性,而非单纯依赖数据和模型规模。研究结果可应用于开发更可靠、更具泛化能力的量子化学模型,加速新材料发现、药物设计等领域的研究进程。

📄 摘要(原文)

Neural scaling laws are driving the machine learning community toward training ever-larger foundation models across domains, assuring high accuracy and transferable representations for extrapolative tasks. We test this promise in quantum chemistry by scaling model capacity and training data from quantum chemical calculations. As a generalization task, we evaluate the resulting models' predictions of the bond dissociation energy of neutral H$_2$, the simplest possible molecule. We find that, regardless of dataset size or model capacity, models trained only on stable structures fail dramatically to even qualitatively reproduce the H$_2$ energy curve. Only when compressed and stretched geometries are explicitly included in training do the predictions roughly resemble the correct shape. Nonetheless, the largest foundation models trained on the largest and most diverse datasets containing dissociating diatomics exhibit serious failures on simple diatomic molecules. Most strikingly, they cannot reproduce the trivial repulsive energy curve of two bare protons, revealing their failure to learn the basic Coulomb's law involved in electronic structure theory. These results suggest that scaling alone is insufficient for building reliable quantum chemical models.