The Geometric Alignment Tax: Tokenization vs. Continuous Geometry in Scientific Foundation Models

📄 arXiv: 2604.04155 📥 PDF

作者: Prashant C. Raju

分类: cs.LG, cs.IT, bio.QM, stat.ML

发布日期: 2026-04-07


💡 一句话要点

揭示科学大模型中几何对齐税:离散Token化导致连续几何结构失真

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 几何对齐税 科学基础模型 离散Token化 连续几何 表征学习

📋 核心要点

  1. 现有生物和物理基础模型在预测精度高,但无法有效保留其建模系统的连续几何结构。
  2. 论文提出“几何对齐税”概念,指出离散Token化是导致连续几何结构失真的根本原因。
  3. 实验表明,使用连续目标函数可显著降低几何失真,并揭示了现有生物学模型的三种失效模式。

📝 摘要(中文)

生物学和物理学的基础模型优化了预测精度,但其内部表示系统性地未能保留其建模系统的连续几何结构。我们确定了根本原因:几何对齐税,这是一种强制连续流形通过离散分类瓶颈的内在代价。在合成动力系统上的受控消融实验表明,在相同的编码器上用连续头替换交叉熵可将几何失真降低高达8.5倍,而学习的代码本表现出非单调的双重约束,即更精细的量化会恶化几何结构,尽管提高了重建效果。在连续目标下,三种架构相差1.3倍;在离散Token化下,它们相差3000倍。通过速率失真理论和MINE评估14个生物学基础模型,我们确定了三种失效模式:局部-全局解耦、表征压缩和几何空虚。一项对照实验证实,Evo 2在真实DNA上的反向互补鲁棒性反映了保守的序列组成,而不是学习到的对称性。没有模型能够同时实现低失真、高互信息和全局一致性。

🔬 方法详解

问题定义:现有科学领域的基础模型,如生物和物理模型,虽然在预测精度上表现出色,但其内部表征无法有效地保留被建模系统的连续几何结构。这意味着模型虽然能做出准确的预测,但对系统内在几何属性的理解存在偏差。现有方法依赖于离散Token化,这被认为是导致几何结构失真的一个重要原因。

核心思路:论文的核心思路是识别并量化“几何对齐税”,即强制连续流形通过离散分类瓶颈所产生的内在代价。通过比较使用离散Token化和连续表征的模型,研究人员旨在证明离散化过程会引入几何失真。他们认为,避免离散Token化,直接使用连续的表征空间,可以更好地保留系统的几何信息。

技术框架:论文采用了一种多管齐下的方法。首先,在合成动力系统上进行受控消融实验,比较使用交叉熵损失(对应离散Token化)和连续输出头的模型的几何失真程度。其次,使用速率失真理论和互信息估计(MINE)来评估14个生物学基础模型的性能,并识别出三种失效模式:局部-全局解耦、表征压缩和几何空虚。最后,通过一个对照实验,分析Evo 2模型在真实DNA上的反向互补鲁棒性,以确定其是否真正学习到了序列的对称性。

关键创新:论文的关键创新在于提出了“几何对齐税”的概念,并将其作为解释科学基础模型几何结构失真的一个根本原因。此外,论文还通过实验验证了离散Token化对几何结构的影响,并识别了现有生物学模型的三种失效模式。这些发现为改进科学基础模型的设计提供了新的视角。

关键设计:在实验设计方面,论文使用了合成动力系统进行受控消融实验,以便精确地控制和评估不同因素对几何结构的影响。在评估生物学模型时,论文采用了速率失真理论和互信息估计等信息论工具,以量化模型的表征能力和信息保留程度。此外,论文还设计了一个对照实验,以区分模型学习到的反向互补鲁棒性是源于真正的对称性,还是仅仅反映了保守的序列组成。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,在相同的编码器上,用连续输出头替换交叉熵损失可以将几何失真降低高达8.5倍。此外,研究还发现,更精细的量化可能会恶化几何结构,尽管提高了重建效果。对14个生物学基础模型的评估揭示了三种失效模式,表明现有模型在几何结构的保留方面存在显著缺陷。

🎯 应用场景

该研究成果可应用于改进生物学、物理学等领域的科学基础模型,使其更好地理解和表示复杂系统的几何结构。通过降低几何失真,可以提高模型的可解释性和泛化能力,从而在药物发现、材料设计等领域发挥更大的作用。未来的研究可以探索更有效的连续表征方法,以进一步降低几何对齐税。

📄 摘要(原文)

Foundation models for biology and physics optimize predictive accuracy, but their internal representations systematically fail to preserve the continuous geometry of the systems they model. We identify the root cause: the Geometric Alignment Tax, an intrinsic cost of forcing continuous manifolds through discrete categorical bottlenecks. Controlled ablations on synthetic dynamical systems demonstrate that replacing cross-entropy with a continuous head on an identical encoder reduces geometric distortion by up to 8.5x, while learned codebooks exhibit a non-monotonic double bind where finer quantization worsens geometry despite improving reconstruction. Under continuous objectives, three architectures differ by 1.3x; under discrete tokenization, they diverge by 3,000x. Evaluating 14 biological foundation models with rate-distortion theory and MINE, we identify three failure regimes: Local-Global Decoupling, Representational Compression, and Geometric Vacuity. A controlled experiment confirms that Evo 2's reverse-complement robustness on real DNA reflects conserved sequence composition, not learned symmetry. No model achieves simultaneously low distortion, high mutual information, and global coherence.