SEF-CLGC at SemEval-2026 Task 11: Logical Notation Impact on Language Model Performance

📄 arXiv: 2606.09157v1 📥 PDF

作者: Hanna Abi Akl, Fabien Gandon, Catherine Faron, Pierre Monnin

分类: cs.CL, cs.AI

发布日期: 2026-06-08

备注: Accepted to SemEval-2026 co-located with ACL 2026


💡 一句话要点

提出SEF-CLGC框架以提升语言模型推理性能

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 语言模型 推理性能 形式逻辑 小型语言模型 内容偏差 自然语言处理 逻辑符号

📋 核心要点

  1. 现有方法在推理性能上存在内容偏差,难以有效解耦内容与形式推理。
  2. 提出的SEF-CLGC框架结合形式逻辑符号与小型语言模型,旨在提升推理准确性。
  3. 实验结果显示,最佳模型在任务中获得27.80%的内容得分,显著降低了内容偏差。

📝 摘要(中文)

本文重新审视了我们的管道,称为三段论评估框架-通用逻辑语法构建(SEF-CLGC)。我们结合形式逻辑符号与小型语言模型(SLMs),以评估在SemEval-2026任务11子任务1中,大型语言模型的内容与形式推理的解耦性能。实验表明,仅依赖于训练于自然语言与符号语言组合的SLMs,我们的最佳模型在该任务中获得了27.80%的内容得分,同时显著降低了推理中的内容偏差。

🔬 方法详解

问题定义:本文旨在解决大型语言模型在推理过程中存在的内容偏差问题,现有方法未能有效解耦内容与形式推理,导致推理性能不足。

核心思路:通过结合形式逻辑符号与小型语言模型(SLMs),我们设计了一种新的评估框架,旨在提升推理的准确性与一致性。这样的设计能够更好地处理自然语言与符号语言的结合,增强模型的推理能力。

技术框架:SEF-CLGC框架包括多个模块,首先是逻辑符号的构建,其次是小型语言模型的训练,最后是推理性能的评估。整个流程通过自然语言与符号语言的结合,进行有效的推理评估。

关键创新:最重要的技术创新在于将形式逻辑符号与小型语言模型结合,形成新的推理评估方法。这一方法与现有的基于大型语言模型的推理方法本质上不同,能够有效降低内容偏差。

关键设计:在模型训练中,我们采用了自然语言与符号语言的组合,设置了特定的损失函数以优化推理性能,同时调整了网络结构以适应逻辑符号的处理。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,最佳模型在SemEval-2026任务11中获得了27.80%的内容得分,相较于传统方法显著降低了内容偏差,展示了SEF-CLGC框架在推理性能上的有效性。

🎯 应用场景

该研究的潜在应用领域包括自然语言处理、智能问答系统和推理系统等。通过提升语言模型的推理性能,SEF-CLGC框架能够为各种基于语言的智能应用提供更为准确的推理支持,具有重要的实际价值和未来影响。

📄 摘要(原文)

This paper revisits our pipeline called Syllogistic Evaluation Framework-Common Logic Grammar Construction (SEF-CLGC). We combine formal logical notations with Small Language Models (SLMs) to evaluate reasoning performance on the SemEval-2026 Task 11 Subtask 1: Disentangling Content and Formal Reasoning in Large Language Models. Our experiments show that by relying solely on SLMs, trained on a combination of natural and symbolic languages, our best model achieves a content score of 27.80% on the task while significantly lowering the content bias in reasoning.