Towards Learning Abductive Reasoning using VSA Distributed Representations

📄 arXiv: 2406.19121v3 📥 PDF

作者: Giacomo Camposampiero, Michael Hersche, Aleksandar Terzić, Roger Wattenhofer, Abu Sebastian, Abbas Rahimi

分类: cs.LG, cs.AI, cs.SC

发布日期: 2024-06-27 (更新: 2024-08-30)

备注: Accepted at the 18th International Conference on Neural-Symbolic Learning and Reasoning (NeSy) 2024 [Spotlight]

🔗 代码/项目: GITHUB


💡 一句话要点

提出ARLC模型,利用VSA分布式表示学习归纳推理,解决抽象推理任务。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 归纳推理 抽象推理 向量符号架构 领域知识 神经符号学习

📋 核心要点

  1. 现有抽象推理方法在可解释性和泛化能力上存在不足,难以有效结合领域知识。
  2. ARLC模型通过VSA分布式表示,结合领域知识编程和数据学习,提升推理准确性和可解释性。
  3. 实验表明,ARLC在I-RAVEN数据集上超越了现有模型,并展现出良好的鲁棒性和迁移学习能力。

📝 摘要(中文)

本文提出了一种基于Learn-VRF的、具有上下文感知能力的归纳规则学习器(ARLC)模型,用于解决抽象推理任务。ARLC为归纳推理设计了一种新颖且更广泛适用的训练目标,从而在解决Raven渐进矩阵(RPM)时具有更好的可解释性和更高的准确性。ARLC允许编程领域知识和学习数据分布的底层规则。我们在I-RAVEN数据集上评估了ARLC,展示了在同分布和异分布(未见过的属性-规则对)测试中都达到了最先进的精度。ARLC超越了神经符号和连接主义基线,包括大型语言模型,尽管其参数数量少几个数量级。我们展示了ARLC通过在编程知识的基础上增量地从例子中学习,对编程后训练的鲁棒性,这只会提高其性能,而不会导致编程解决方案的灾难性遗忘。我们验证了ARLC从2x2 RPM星座到未见过的星座的无缝迁移学习。

🔬 方法详解

问题定义:论文旨在解决抽象推理任务,特别是Raven渐进矩阵(RPM)问题。现有方法,包括神经符号方法和连接主义方法,在可解释性、泛化能力以及有效利用领域知识方面存在局限性。大型语言模型虽然表现出一定的推理能力,但参数量巨大,且缺乏明确的推理机制。

核心思路:论文的核心思路是将领域知识编程与数据驱动学习相结合,利用向量符号架构(VSA)的分布式表示能力,实现可解释且高效的归纳推理。通过VSA,可以将符号化的规则和概念编码为高维向量,并利用向量运算进行推理。这种方法既能利用先验知识,又能从数据中学习,从而提高推理的准确性和泛化能力。

技术框架:ARLC模型基于Learn-VRF框架,主要包含以下几个模块:1) 领域知识编程模块:将已知的规则和概念编码为VSA向量。2) 数据学习模块:从训练数据中学习未知的规则和概念,并更新VSA向量。3) 推理模块:利用VSA向量运算进行推理,选择最符合规则的答案。整体流程是先利用领域知识进行初始化,然后通过数据学习进行优化,最后进行推理。

关键创新:ARLC的关键创新在于:1) 提出了一个新颖的、更广泛适用的归纳推理训练目标,提高了模型的可解释性和准确性。2) 结合了领域知识编程和数据学习,使得模型既能利用先验知识,又能从数据中学习。3) 利用VSA分布式表示,实现了符号化的推理过程,提高了模型的可解释性。

关键设计:ARLC的关键设计包括:1) 使用Learn-VRF框架作为基础,利用其强大的函数逼近能力。2) 设计了特定的损失函数,用于优化VSA向量,使得其能够更好地表示规则和概念。3) 采用了上下文感知机制,使得模型能够根据不同的上下文选择不同的规则。4) 针对RPM问题,设计了特定的VSA向量编码方式,使得模型能够有效地处理各种类型的RPM问题。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

ARLC在I-RAVEN数据集上取得了state-of-the-art的精度,超越了神经符号和连接主义基线,包括大型语言模型,尽管其参数数量少几个数量级。在异分布测试中也表现出良好的泛化能力。此外,ARLC还展现出对编程后训练的鲁棒性,以及从2x2 RPM星座到未见过的星座的无缝迁移学习能力。

🎯 应用场景

ARLC模型可应用于各种需要抽象推理能力的领域,如智能诊断、决策支持、教育评估等。其结合领域知识和数据学习的特性,使其在知识密集型任务中具有优势。未来可进一步扩展到更复杂的推理场景,并与其他AI技术相结合,构建更强大的智能系统。

📄 摘要(原文)

We introduce the Abductive Rule Learner with Context-awareness (ARLC), a model that solves abstract reasoning tasks based on Learn-VRF. ARLC features a novel and more broadly applicable training objective for abductive reasoning, resulting in better interpretability and higher accuracy when solving Raven's progressive matrices (RPM). ARLC allows both programming domain knowledge and learning the rules underlying a data distribution. We evaluate ARLC on the I-RAVEN dataset, showcasing state-of-the-art accuracy across both in-distribution and out-of-distribution (unseen attribute-rule pairs) tests. ARLC surpasses neuro-symbolic and connectionist baselines, including large language models, despite having orders of magnitude fewer parameters. We show ARLC's robustness to post-programming training by incrementally learning from examples on top of programmed knowledge, which only improves its performance and does not result in catastrophic forgetting of the programmed solution. We validate ARLC's seamless transfer learning from a 2x2 RPM constellation to unseen constellations. Our code is available at https://github.com/IBM/abductive-rule-learner-with-context-awareness.