Compositional Neuro-Symbolic Reasoning
作者: Anugyan Das, Omkar Ghugarkar, Vishvesh Bhat, Asad Aali
分类: cs.AI
发布日期: 2026-04-06
💡 一句话要点
提出一种神经符号组合推理框架,提升ARC问题的泛化能力
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 神经符号推理 组合泛化 抽象推理 领域特定语言 大型语言模型
📋 核心要点
- 现有纯神经架构在组合泛化方面表现不足,而纯符号系统则难以处理感知层面的问题。
- 论文提出一种神经符号架构,结合神经先验引导的转换提议和符号一致性过滤,提升泛化能力。
- 实验表明,该方法在ARC-AGI-2数据集上显著提升了LLM的性能,无需微调或强化学习。
📝 摘要(中文)
本文研究了基于结构化抽象的推理方法在抽象和推理语料库(ARC)上的应用,并将其泛化能力与测试时方法进行了比较。纯神经架构缺乏可靠的组合泛化能力,而严格的符号系统在感知基础方面存在困难。因此,我们提出了一种神经符号架构,该架构从网格中提取对象级结构,使用神经先验从固定的领域特定语言(DSL)的原子模式中提出候选转换,并使用跨示例一致性来过滤假设。该系统被实例化为一个基于单元模式的组合推理框架,受到人类视觉抽象的启发,利用对象表示和转换提议来增强大型语言模型(LLM)。在ARC-AGI-2上,它将基础LLM的性能从16%提高到公共评估集上的24.4%,并且与ARC Lang Solver通过元分类器结合时提高到30.8%。这些结果表明,分离感知、神经引导的转换提议和符号一致性过滤可以提高泛化能力,而无需特定于任务的微调或强化学习,同时减少对蛮力搜索和基于采样的测试时缩放的依赖。我们开源了ARC-AGI-2 Reasoner代码。
🔬 方法详解
问题定义:论文旨在解决抽象和推理语料库(ARC)中的组合泛化问题。现有的纯神经模型难以进行可靠的组合泛化,而纯符号模型则在感知层面存在困难,无法有效处理图像像素信息。这限制了它们在ARC这类需要抽象推理的任务上的表现。
核心思路:论文的核心思路是将神经方法和符号方法相结合,利用神经方法提取图像中的对象级结构并提出候选转换,然后利用符号方法进行一致性过滤。这种结合既能利用神经方法的感知能力,又能利用符号方法的推理能力,从而提高泛化能力。
技术框架:该神经符号架构包含以下主要模块:1) 对象级结构提取:从输入网格中提取对象级别的结构化表示。2) 神经引导的转换提议:利用神经先验,从预定义的领域特定语言(DSL)中提出候选的原子模式转换。3) 符号一致性过滤:使用跨示例一致性来过滤候选假设,保留符合逻辑规则的转换。4) 大型语言模型增强:将对象表示和转换提议输入到LLM中,以增强其推理能力。
关键创新:该方法最重要的创新点在于将神经方法和符号方法有机结合,通过神经先验引导的转换提议和符号一致性过滤,实现了更强的组合泛化能力。与现有方法相比,该方法无需特定于任务的微调或强化学习,减少了对蛮力搜索和采样方法的依赖。
关键设计:该系统基于单元模式的组合推理框架,受到人类视觉抽象的启发。领域特定语言(DSL)包含预定义的原子模式转换。跨示例一致性过滤的具体实现方式未知,但推测是基于某种逻辑规则或约束。论文开源了ARC-AGI-2 Reasoner代码,但具体参数设置、损失函数和网络结构等技术细节未在摘要中详细描述。
🖼️ 关键图片
📊 实验亮点
该方法在ARC-AGI-2数据集上取得了显著的性能提升。基础LLM的性能为16%,而使用该神经符号架构后,在公共评估集上的性能提升至24.4%。与ARC Lang Solver结合后,性能进一步提升至30.8%。这些结果表明,该方法能够有效提高LLM在抽象推理任务上的性能。
🎯 应用场景
该研究成果可应用于通用人工智能、机器人视觉、自动化程序合成等领域。通过结合神经感知和符号推理,可以提升AI系统在复杂环境下的泛化能力和鲁棒性,使其能够更好地理解和解决抽象问题,具有重要的实际应用价值和未来发展潜力。
📄 摘要(原文)
We study structured abstraction-based reasoning for the Abstraction and Reasoning Corpus (ARC) and compare its generalization to test-time approaches. Purely neural architectures lack reliable combinatorial generalization, while strictly symbolic systems struggle with perceptual grounding. We therefore propose a neuro-symbolic architecture that extracts object-level structure from grids, uses neural priors to propose candidate transformations from a fixed domain-specific language (DSL) of atomic patterns, and filters hypotheses using cross-example consistency. Instantiated as a compositional reasoning framework based on unit patterns inspired by human visual abstraction, the system augments large language models (LLMs) with object representations and transformation proposals. On ARC-AGI-2, it improves base LLM performance from 16% to 24.4% on the public evaluation set, and to 30.8% when combined with ARC Lang Solver via a meta-classifier. These results demonstrate that separating perception, neural-guided transformation proposal, and symbolic consistency filtering improves generalization without task-specific finetuning or reinforcement learning, while reducing reliance on brute-force search and sampling-based test-time scaling. We open-source the ARC-AGI-2 Reasoner code (this https URL).