GraphARC: A Comprehensive Benchmark for Graph-Based Abstract Reasoning
作者: Saku Peltonen, August Bøgh Rønberg, Andreas Plesner, Roger Wattenhofer
分类: cs.AI
发布日期: 2026-05-29
备注: Accepted at KDD 2026 Datasets and Benchmarks Track
💡 一句话要点
提出GraphARC:一个用于图结构抽象推理的综合基准测试。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 图神经网络 抽象推理 图结构数据 基准测试 少样本学习
📋 核心要点
- 现有抽象推理基准多局限于网格或文本,缺乏对图结构数据的有效评估。
- GraphARC通过推广ARC的少样本转换学习范式,提供图结构数据的抽象推理基准。
- 实验表明,现有语言模型在GraphARC上存在理解-执行差距和缩放性问题。
📝 摘要(中文)
关系推理是智能的核心,但现有的基准测试通常局限于网格或文本等格式。我们引入GraphARC,这是一个用于图结构数据抽象推理的基准。GraphARC推广了抽象和推理语料库(ARC)的少样本转换学习范式。每个任务都需要从几个输入-输出对中推断出一个转换规则,并将其应用于一个新的测试图,涵盖局部、全局和分层图转换。与基于网格的ARC不同,GraphARC实例可以在不同的图族和大小上大规模生成,从而能够系统地评估泛化能力。我们评估了GraphARC上最先进的语言模型,并观察到明显的局限性。模型可以回答关于图属性的问题,但通常无法解决完整的图转换任务,揭示了理解-执行差距。性能在更大的实例上进一步下降,暴露了缩放障碍。更广泛地说,通过在单个框架内结合节点分类、链接预测和图生成等方面,GraphARC为未来的图基础模型提供了一个有希望的试验平台。
🔬 方法详解
问题定义:论文旨在解决现有抽象推理基准在图结构数据上的不足,缺乏对图结构数据进行有效推理和泛化的能力。现有方法在处理复杂的图转换任务时,存在理解-执行的差距,并且难以扩展到更大规模的图实例。
核心思路:论文的核心思路是将抽象推理任务扩展到图结构数据上,通过提供一个包含多种图转换类型的基准测试集,来评估模型在图结构数据上的推理和泛化能力。GraphARC的设计目标是能够大规模生成不同类型和大小的图实例,从而系统地评估模型的性能。
技术框架:GraphARC的整体框架基于ARC的少样本转换学习范式。每个任务包含几个输入-输出图对,模型需要从这些示例中学习转换规则,并将其应用于一个新的测试图。GraphARC涵盖了局部、全局和分层图转换,包括节点分类、链接预测和图生成等任务。该框架允许对模型在不同类型的图转换任务上的性能进行细粒度评估。
关键创新:GraphARC的关键创新在于它将抽象推理任务从传统的网格和文本数据扩展到图结构数据,并提供了一个可大规模生成的基准测试集。与现有方法相比,GraphARC能够更全面地评估模型在图结构数据上的推理和泛化能力,并揭示模型在处理复杂图转换任务时的局限性。
关键设计:GraphARC的关键设计包括:1) 多样化的图族和大小,允许系统地评估模型的泛化能力;2) 涵盖局部、全局和分层图转换的任务类型,能够评估模型在不同粒度上的推理能力;3) 基于ARC的少样本学习范式,要求模型从少量示例中学习转换规则;4) 可扩展的生成框架,允许大规模生成图实例。
🖼️ 关键图片
📊 实验亮点
论文评估了现有语言模型在GraphARC上的性能,发现模型在回答关于图属性的问题时表现尚可,但在解决完整的图转换任务时存在明显的理解-执行差距。此外,模型在更大规模的图实例上的性能显著下降,表明存在缩放性问题。这些结果突显了现有模型在图结构数据抽象推理方面的局限性。
🎯 应用场景
GraphARC可应用于评估和提升图神经网络、图Transformer等模型在抽象推理、知识图谱推理、药物发现、社交网络分析等领域的性能。它为开发更强大的图基础模型提供了一个有价值的测试平台,并促进了图结构数据上的智能算法研究。
📄 摘要(原文)
Relational reasoning lies at the heart of intelligence, but existing benchmarks are typically confined to formats such as grids or text. We introduce GraphARC, a benchmark for abstract reasoning on graph-structured data. GraphARC generalizes the few-shot transformation learning paradigm of the Abstraction and Reasoning Corpus (ARC). Each task requires inferring a transformation rule from a few input-output pairs and applying it to a new test graph, covering local, global, and hierarchical graph transformations. Unlike grid-based ARC, GraphARC instances can be generated at scale across diverse graph families and sizes, enabling systematic evaluation of generalization abilities. We evaluate state-of-the-art language models on GraphARC and observe clear limitations. Models can answer questions about graph properties but often fail to solve the full graph transformation task, revealing a comprehension-execution gap. Performance further degrades on larger instances, exposing scaling barriers. More broadly, by combining aspects of node classification, link prediction, and graph generation within a single framework, GraphARC provides a promising testbed for future graph foundation models.