The Geometric Alignment Tax: Tokenization vs. Continuous Geometry in Scientific Foundation Models

作者: Prashant C. Raju

分类: cs.LG, cs.IT, bio.QM, stat.ML

发布日期: 2026-04-07

💡 一句话要点

揭示科学大模型中几何对齐税：离散Token化导致连续几何结构失真

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 几何对齐税 科学基础模型 离散Token化 连续几何 表征学习

📋 核心要点

现有生物和物理基础模型在预测精度高，但无法有效保留其建模系统的连续几何结构。
论文提出“几何对齐税”概念，指出离散Token化是导致连续几何结构失真的根本原因。
实验表明，使用连续目标函数可显著降低几何失真，并揭示了现有生物学模型的三种失效模式。

📝 摘要（中文）

生物学和物理学的基础模型优化了预测精度，但其内部表示系统性地未能保留其建模系统的连续几何结构。我们确定了根本原因：几何对齐税，这是一种强制连续流形通过离散分类瓶颈的内在代价。在合成动力系统上的受控消融实验表明，在相同的编码器上用连续头替换交叉熵可将几何失真降低高达8.5倍，而学习的代码本表现出非单调的双重约束，即更精细的量化会恶化几何结构，尽管提高了重建效果。在连续目标下，三种架构相差1.3倍；在离散Token化下，它们相差3000倍。通过速率失真理论和MINE评估14个生物学基础模型，我们确定了三种失效模式：局部-全局解耦、表征压缩和几何空虚。一项对照实验证实，Evo 2在真实DNA上的反向互补鲁棒性反映了保守的序列组成，而不是学习到的对称性。没有模型能够同时实现低失真、高互信息和全局一致性。

🔬 方法详解

问题定义：现有科学领域的基础模型，如生物和物理模型，虽然在预测精度上表现出色，但其内部表征无法有效地保留被建模系统的连续几何结构。这意味着模型虽然能做出准确的预测，但对系统内在几何属性的理解存在偏差。现有方法依赖于离散Token化，这被认为是导致几何结构失真的一个重要原因。

核心思路：论文的核心思路是识别并量化“几何对齐税”，即强制连续流形通过离散分类瓶颈所产生的内在代价。通过比较使用离散Token化和连续表征的模型，研究人员旨在证明离散化过程会引入几何失真。他们认为，避免离散Token化，直接使用连续的表征空间，可以更好地保留系统的几何信息。

技术框架：论文采用了一种多管齐下的方法。首先，在合成动力系统上进行受控消融实验，比较使用交叉熵损失（对应离散Token化）和连续输出头的模型的几何失真程度。其次，使用速率失真理论和互信息估计（MINE）来评估14个生物学基础模型的性能，并识别出三种失效模式：局部-全局解耦、表征压缩和几何空虚。最后，通过一个对照实验，分析Evo 2模型在真实DNA上的反向互补鲁棒性，以确定其是否真正学习到了序列的对称性。

关键创新：论文的关键创新在于提出了“几何对齐税”的概念，并将其作为解释科学基础模型几何结构失真的一个根本原因。此外，论文还通过实验验证了离散Token化对几何结构的影响，并识别了现有生物学模型的三种失效模式。这些发现为改进科学基础模型的设计提供了新的视角。

关键设计：在实验设计方面，论文使用了合成动力系统进行受控消融实验，以便精确地控制和评估不同因素对几何结构的影响。在评估生物学模型时，论文采用了速率失真理论和互信息估计等信息论工具，以量化模型的表征能力和信息保留程度。此外，论文还设计了一个对照实验，以区分模型学习到的反向互补鲁棒性是源于真正的对称性，还是仅仅反映了保守的序列组成。

🖼️ 关键图片

📊 实验亮点

实验结果表明，在相同的编码器上，用连续输出头替换交叉熵损失可以将几何失真降低高达8.5倍。此外，研究还发现，更精细的量化可能会恶化几何结构，尽管提高了重建效果。对14个生物学基础模型的评估揭示了三种失效模式，表明现有模型在几何结构的保留方面存在显著缺陷。

🎯 应用场景

该研究成果可应用于改进生物学、物理学等领域的科学基础模型，使其更好地理解和表示复杂系统的几何结构。通过降低几何失真，可以提高模型的可解释性和泛化能力，从而在药物发现、材料设计等领域发挥更大的作用。未来的研究可以探索更有效的连续表征方法，以进一步降低几何对齐税。

📄 摘要（原文）

Foundation models for biology and physics optimize predictive accuracy, but their internal representations systematically fail to preserve the continuous geometry of the systems they model. We identify the root cause: the Geometric Alignment Tax, an intrinsic cost of forcing continuous manifolds through discrete categorical bottlenecks. Controlled ablations on synthetic dynamical systems demonstrate that replacing cross-entropy with a continuous head on an identical encoder reduces geometric distortion by up to 8.5x, while learned codebooks exhibit a non-monotonic double bind where finer quantization worsens geometry despite improving reconstruction. Under continuous objectives, three architectures differ by 1.3x; under discrete tokenization, they diverge by 3,000x. Evaluating 14 biological foundation models with rate-distortion theory and MINE, we identify three failure regimes: Local-Global Decoupling, Representational Compression, and Geometric Vacuity. A controlled experiment confirms that Evo 2's reverse-complement robustness on real DNA reflects conserved sequence composition, not learned symmetry. No model achieves simultaneously low distortion, high mutual information, and global coherence.

The Geometric Alignment Tax: Tokenization vs. Continuous Geometry in Scientific Foundation Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理