Are LLMs Stable Formal Logic Translators in Logical Reasoning Across Linguistically Diversified Texts?

📄 arXiv: 2506.04575v2 📥 PDF

作者: Qingchuan Li, Jiatong Li, Zirui Liu, Mingyue Cheng, Yuting Zeng, Qi Liu, Tongxuan Liu

分类: cs.CL

发布日期: 2025-06-05 (更新: 2025-10-16)

🔗 代码/项目: GITHUB


💡 一句话要点

提出SoLT和MenTaL以解决LLM逻辑推理中的符号不一致问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 逻辑推理 符号一致性 语言多样性 数据集重写 推理准确性 概念映射 机器学习

📋 核心要点

  1. 现有的LLM翻译方法在处理不同语言形式时,常常无法保持符号的一致性,导致逻辑推理错误。
  2. 本文提出SoLT基准以丰富数据集的语言多样性,并提出MenTaL方法来建立概念与符号之间的映射关系。
  3. 实验结果显示,LLMs在语言变异下的推理准确性显著下降,而MenTaL方法能有效提升模型在多样输入下的表现。

📝 摘要(中文)

随着大型语言模型(LLMs)在逻辑推理中的应用日益受到关注,现有的LLM翻译方法在处理不同语言形式时常常无法生成一致的符号表示,导致逻辑连贯性破裂和求解器错误。为了解决这一问题,本文提出了SoLT基准,系统性地将推理数据集重写为多样化但逻辑等价的形式。此外,提出的MenTaL方法通过引导模型建立概念-符号映射表,保持符号的一致性,减轻符号漂移。实验结果表明,LLMs在语言变异下确实存在符号映射不一致的问题,而应用MenTaL能显著提升推理准确性。整体而言,本研究为在多样化的真实场景中实现更可靠的逻辑推理提供了重要的步骤。

🔬 方法详解

问题定义:本文旨在解决LLM在逻辑推理中因语言多样性导致的符号不一致问题。现有方法在面对不同语言形式时,常常无法生成一致的符号表示,进而影响逻辑推理的准确性。

核心思路:论文提出的SoLT基准通过将推理数据集重写为多样化但逻辑等价的形式,来增强数据集的语言多样性。同时,MenTaL方法通过建立概念与符号的映射关系,确保符号的一致性,减少符号漂移。

技术框架:整体架构包括两个主要模块:SoLT基准和MenTaL方法。SoLT负责生成多样化的逻辑推理数据集,而MenTaL则在翻译过程中引导模型建立符号映射表。

关键创新:最重要的技术创新在于提出了SoLT基准和MenTaL方法,前者系统性地处理语言多样性问题,后者通过概念-符号映射保持符号一致性,显著提升了LLM的推理能力。

关键设计:在MenTaL方法中,设计了概念-符号映射表,并通过损失函数来优化符号的一致性。此外,模型结构上可能采用了特定的神经网络架构以支持映射关系的学习。

📊 实验亮点

实验结果表明,LLMs在面对语言变异时,推理准确性下降幅度可达显著水平,而应用MenTaL方法后,模型在多样输入下的表现提升明显,展示了稳定的性能改进。

🎯 应用场景

该研究的潜在应用领域包括自然语言处理、智能问答系统和自动推理等。通过提升LLM在多样化文本中的逻辑推理能力,能够更好地支持复杂的决策制定和信息检索任务,具有重要的实际价值和未来影响。

📄 摘要(原文)

Logical reasoning with large language models (LLMs) has received growing attention. One mainstream approach translates natural language into formal logic and then applies symbolic solvers for deduction. While effective in many tasks, these LLM-based translators often fail to generate consistent symbolic representations when the same concept appears in different linguistic forms. Such inconsistencies break logical coherence and lead to solver errors. However, most existing benchmarks lack this type of linguistic variation, which frequently occurs in real-world text, leaving the problem underexplored. To address this gap, we present SoLT, a benchmark that systematically rewrites reasoning datasets into diverse yet logically equivalent forms across multiple levels. Beyond evaluation, SoLT also provides a general method to enrich any dataset with linguistic diversity while preserving both meaning and logic. To further enhance the stability of LLM-based reasoning, we propose MenTaL, which explicitly guides models to build a concept-symbol mapping table during translation. By linking equivalent expressions to shared symbols, MenTaL maintains consistency and mitigates symbol drift. Experiments on SoLT demonstrate that LLMs indeed suffer from inconsistent symbol mapping under linguistic variation, leading to significant drops in reasoning accuracy. Meanwhile, applying MenTaL brings clear and stable performance improvements across diverse inputs. Overall, our findings reveal that overlooking linguistic diversity hides key weaknesses in LLM-based translators, and our work offers a step toward more reliable logical reasoning in varied real-world scenarios. Our code is available at https://github.com/wufeiwuwoshihua/LinguDiver.