MuSLR: Multimodal Symbolic Logical Reasoning

📄 arXiv: 2509.25851v2 📥 PDF

作者: Jundong Xu, Hao Fei, Yuhui Zhang, Liangming Pan, Qijun Huang, Qian Liu, Preslav Nakov, Min-Yen Kan, William Yang Wang, Mong-Li Lee, Wynne Hsu

分类: cs.CV

发布日期: 2025-09-30 (更新: 2026-01-29)

备注: Accepted by NeurIPS 2025

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

提出MuSLR基准测试,并设计LogiCAM框架提升VLM在多模态符号逻辑推理能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 符号逻辑推理 视觉语言模型 基准测试 可解释性 形式逻辑 知识表示 推理框架

📋 核心要点

  1. 现有视觉语言模型(VLM)在多模态符号逻辑推理方面能力不足,难以满足高风险应用的需求。
  2. 提出LogiCAM框架,通过模块化地应用形式逻辑规则到多模态输入,提升VLM的推理能力。
  3. 在MuSLR基准测试上,LogiCAM显著提升了GPT-4.1的推理性能,尤其是在复杂逻辑推理上。

📝 摘要(中文)

多模态符号逻辑推理旨在通过形式逻辑从多模态输入中推导出新的事实,这在自动驾驶和医疗诊断等高风险应用中至关重要,因为其严谨、确定性的推理有助于防止严重后果。为了评估当前最先进的视觉语言模型(VLM)的这种能力,我们引入了第一个基准MuSLR,用于基于形式逻辑规则的多模态符号逻辑推理。MuSLR包含7个领域的1,093个实例,包括35个原子符号逻辑和976个逻辑组合,推理深度从2到9不等。我们评估了7个最先进的VLM在MuSLR上的表现,发现它们都在多模态符号推理方面表现不佳,最好的模型GPT-4.1仅达到46.8%。因此,我们提出了LogiCAM,一个将形式逻辑规则应用于多模态输入的可模块化框架,将GPT-4.1的Chain-of-Thought性能提高了14.13%,并在诸如一阶逻辑等复杂逻辑上实现了更大的收益。我们还进行了全面的错误分析,表明大约70%的失败源于模态之间的逻辑不一致,为指导未来的改进提供了关键见解。所有数据和代码均可在https://llm-symbol.github.io/MuSLR公开获取。

🔬 方法详解

问题定义:论文旨在解决视觉语言模型(VLM)在多模态符号逻辑推理方面的不足。现有VLM难以有效利用多模态信息进行严谨的逻辑推理,尤其是在推理深度较深或逻辑规则复杂的情况下,导致在高风险应用中存在潜在风险。

核心思路:论文的核心思路是将形式逻辑规则显式地融入到VLM的推理过程中。通过构建一个模块化的框架,将多模态输入与形式逻辑规则相结合,引导VLM进行更准确、可靠的推理。这种方法旨在弥合VLM的感知能力与逻辑推理能力之间的差距。

技术框架:LogiCAM框架主要包含以下几个模块:1) 多模态输入编码模块:用于提取视觉和语言输入的特征表示。2) 逻辑规则解析模块:将形式逻辑规则解析为可执行的计算图。3) 推理执行模块:根据计算图,将多模态特征进行组合和推理,生成新的事实。4) 结果验证模块:验证推理结果的正确性,并进行迭代优化。整体流程是,首先对多模态输入进行编码,然后根据逻辑规则进行推理,最后验证推理结果。

关键创新:LogiCAM的关键创新在于将形式逻辑规则显式地融入到VLM的推理过程中,而不是仅仅依赖于VLM自身的隐式学习。这种方法使得推理过程更加透明、可控,并且更容易进行调试和优化。此外,LogiCAM的模块化设计使得可以灵活地添加或修改逻辑规则,从而适应不同的应用场景。

关键设计:LogiCAM的关键设计包括:1) 使用预训练的视觉和语言模型作为特征提取器。2) 使用符号化的表示来表示逻辑规则和事实。3) 使用链式推理(Chain-of-Thought)的方法来逐步执行推理过程。4) 使用对比学习的方法来训练模型,使其能够更好地区分正确和错误的推理结果。具体参数设置和网络结构的选择取决于具体的应用场景和数据集。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,LogiCAM框架显著提升了GPT-4.1在MuSLR基准测试上的性能,尤其是在复杂逻辑推理上。LogiCAM将GPT-4.1的Chain-of-Thought性能提高了14.13%。错误分析表明,约70%的失败源于模态之间的逻辑不一致,为未来的研究提供了重要的方向。

🎯 应用场景

该研究成果可应用于自动驾驶、医疗诊断、金融风控等高风险领域。通过提升VLM的多模态符号逻辑推理能力,可以提高决策的准确性和可靠性,从而降低潜在风险。未来,该技术有望应用于更广泛的领域,例如智能客服、教育等。

📄 摘要(原文)

Multimodal symbolic logical reasoning, which aims to deduce new facts from multimodal input via formal logic, is critical in high-stakes applications such as autonomous driving and medical diagnosis, as its rigorous, deterministic reasoning helps prevent serious consequences. To evaluate such capabilities of current state-of-the-art vision language models (VLMs), we introduce the first benchmark MuSLR for multimodal symbolic logical reasoning grounded in formal logical rules. MuSLR comprises 1,093 instances across 7 domains, including 35 atomic symbolic logic and 976 logical combinations, with reasoning depths ranging from 2 to 9. We evaluate 7 state-of-the-art VLMs on MuSLR and find that they all struggle with multimodal symbolic reasoning, with the best model, GPT-4.1, achieving only 46.8%. Thus, we propose LogiCAM, a modular framework that applies formal logical rules to multimodal inputs, boosting GPT-4.1's Chain-of-Thought performance by 14.13%, and delivering even larger gains on complex logics such as first-order logic. We also conduct a comprehensive error analysis, showing that around 70% of failures stem from logical misalignment between modalities, offering key insights to guide future improvements. All data and code are publicly available at https://llm-symbol.github.io/MuSLR.