Mochi: Aligning Pre-training and Inference for Efficient Graph Foundation Models via Meta-Learning

作者: João Mattos, Arlei Silva

分类: cs.LG, cs.AI

发布日期: 2026-04-23

备注: 20 pages, 7 figures

💡 一句话要点

Mochi：通过元学习对齐预训练与推理，实现高效图基础模型

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 图神经网络 图基础模型 元学习 预训练 小样本学习

📋 核心要点

现有图基础模型预训练与下游任务对齐不足，依赖后处理统一，影响性能。
Mochi采用元学习，在小样本episode上预训练，直接对齐训练目标与推理过程。
Mochi及其变体在多个图任务上超越现有模型，训练效率显著提升。

📝 摘要（中文）

本文提出了一种名为Mochi的图基础模型，它通过采用基于元学习的训练框架来解决任务统一和训练效率问题。现有模型通常采用基于重构的目标（如链接预测）进行预训练，并假设生成的表示可以通过单独的统一步骤（如类原型）与下游任务对齐。本文通过合成和真实世界的实验证明，这种方法虽然简单直观，但存在直接影响下游任务性能的局限性。为了解决这些局限性，Mochi在模拟下游评估协议的小样本episode上进行预训练，从而将训练目标与推理对齐，而不是依赖于事后的统一步骤。实验结果表明，Mochi及其更强大的变体Mochi++在涵盖节点分类、链接预测和图分类的25个真实世界图数据集上，与现有图基础模型相比，实现了具有竞争力或更优越的性能，同时所需的训练时间比最强的基线少8到27倍。

🔬 方法详解

问题定义：现有图基础模型通常采用重构任务（如链接预测）进行预训练，然后通过诸如类原型等方法将预训练得到的表示与下游任务对齐。这种两阶段方法存在问题，即预训练目标与下游任务目标不一致，导致次优的表示学习效果。现有方法训练效率较低，难以适应大规模图数据。

核心思路：Mochi的核心思路是通过元学习，模拟下游任务的 few-shot 学习场景，在预训练阶段就将模型调整到适应下游任务的状态。通过在多个模拟任务（episode）上进行训练，模型能够学习到一种通用的图表示，这种表示能够快速适应新的、未见过的图任务。这种方法避免了事后的对齐步骤，直接优化了下游任务的性能。

技术框架：Mochi的整体框架包含以下几个主要步骤：1）图数据采样：从原始图数据中采样得到多个小的图结构，每个图结构代表一个 episode。2）任务构建：对于每个 episode，构建一个 few-shot 学习任务，例如节点分类或链接预测。3）元学习训练：使用元学习算法（例如 Model-Agnostic Meta-Learning, MAML）训练图神经网络，使其能够快速适应新的 episode。4）推理：在下游任务上，使用预训练好的图神经网络进行推理，并根据具体任务进行微调。

关键创新：Mochi的关键创新在于将元学习引入到图基础模型的预训练中，通过模拟下游任务的 few-shot 学习场景，实现了预训练目标与推理过程的直接对齐。这种方法避免了传统方法的两阶段训练模式，提高了模型的训练效率和泛化能力。Mochi++通过引入更强大的图神经网络结构和更有效的元学习算法，进一步提升了模型的性能。

关键设计：Mochi的关键设计包括：1）Episode构建方式：如何从原始图数据中采样得到具有代表性的 episode，以及如何构建 few-shot 学习任务。2）元学习算法选择：选择合适的元学习算法，例如 MAML 或 Reptile，以及如何调整算法的参数以适应图数据。3）图神经网络结构：选择合适的图神经网络结构，例如 GCN 或 GAT，以及如何设计网络的层数和隐藏层维度。4）损失函数设计：设计合适的损失函数，以优化模型的训练效果。

🖼️ 关键图片

📊 实验亮点

Mochi在25个真实世界图数据集上进行了广泛的实验，涵盖节点分类、链接预测和图分类任务。实验结果表明，Mochi及其变体Mochi++在多个任务上取得了优于现有图基础模型的性能，并且训练时间显著减少，比最强的基线模型减少了8到27倍。这表明Mochi在提高模型性能的同时，也显著提升了训练效率。

🎯 应用场景

Mochi具有广泛的应用前景，可应用于社交网络分析、生物信息学、化学信息学等领域。例如，在社交网络中，Mochi可以用于预测用户之间的关系或用户的兴趣爱好。在生物信息学中，Mochi可以用于预测蛋白质之间的相互作用或药物的靶点。该研究有助于推动图神经网络在实际应用中的发展，并为解决复杂图结构数据的分析问题提供新的思路。

📄 摘要（原文）

We propose Mochi, a Graph Foundation Model that addresses task unification and training efficiency by adopting a meta-learning based training framework. Prior models pre-train with reconstruction-based objectives such as link prediction, and assume that the resulting representations can be aligned with downstream tasks through a separate unification step such as class prototypes. We demonstrate through synthetic and real-world experiments that this procedure, while simple and intuitive, has limitations that directly affect downstream task performance. To address these limitations, Mochi pre-trains on few-shot episodes that mirror the downstream evaluation protocol, aligning the training objective with inference rather than relying on a post-hoc unification step. We show that Mochi, along with its more powerful variant Mochi++, achieves competitive or superior performance compared to existing Graph Foundation Models across 25 real-world graph datasets spanning node classification, link prediction, and graph classification, while requiring 8$\sim$27 times less training time than the strongest baseline.

Mochi: Aligning Pre-training and Inference for Efficient Graph Foundation Models via Meta-Learning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理