Quantifying Cross-Query Contradictions in Multi-Query LLM Reasoning
作者: Rohit Kumar Salla, Ramya Manasa Amancherla, Manoj Saravanan
分类: cs.AI
发布日期: 2026-04-16
备注: Accepted at the ICLR 2026 Workshop on Logical Reasoning of Large Language Models. 9 pages, 6 tables, code and data at https://huggingface.co/datasets/rohitspider/cross_query_benchmark
💡 一句话要点
提出一种基于求解器增强的多查询LLM推理方法,解决跨查询逻辑矛盾问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多查询推理 逻辑一致性 大型语言模型 求解器增强 反例引导修复
📋 核心要点
- 现有大型语言模型在多查询推理中存在跨查询逻辑矛盾,导致答案不一致。
- 论文提出一种求解器增强方法,通过提取承诺、验证全局可满足性并进行反例引导修复,确保推理过程的全局一致性。
- 实验结果表明,该方法在四个推理领域显著减少了跨查询矛盾,同时保持了单查询的准确性。
📝 摘要(中文)
大型语言模型在处理多个相关查询时,经常产生相互矛盾的答案。本文研究了案例文件逻辑一致性问题,即在相互依赖的查询中维持全局可满足的信念状态。为此,作者构建了一个包含390个多查询推理实例的基准测试,并标注了蕴含/矛盾/未知标签。同时,提出了包括案例可满足率、矛盾密度和修正成本等集合层面的评估指标。论文提出了一种求解器增强方法,该方法提取承诺、验证全局可满足性并执行反例引导修复。在四个推理领域中,该方法显著减少了跨查询矛盾(集合一致性从0.56提升到0.94),同时保持了每个查询的准确性,表明全局一致性对于鲁棒的多查询推理至关重要。
🔬 方法详解
问题定义:论文旨在解决大型语言模型在处理多个相关查询时产生的跨查询逻辑矛盾问题。现有方法通常独立处理每个查询,忽略了查询之间的依赖关系,导致全局信念状态不一致。这种不一致性降低了LLM在复杂推理场景中的可靠性。
核心思路:论文的核心思路是利用外部求解器来显式地验证和维护多查询推理过程中的全局逻辑一致性。通过将LLM的输出转化为逻辑约束,并使用求解器检查这些约束的可满足性,可以有效地检测和修复矛盾。这种方法将LLM的生成能力与求解器的验证能力相结合,从而提高多查询推理的鲁棒性。
技术框架:整体框架包含以下几个主要模块:1) 承诺提取:从LLM对每个查询的回答中提取逻辑承诺(例如,事实断言或规则)。2) 全局可满足性验证:使用外部求解器(如SMT求解器)检查所有承诺的集合是否全局可满足。3) 反例引导修复:如果发现矛盾,则使用求解器提供的反例来指导LLM修改其回答,以消除矛盾。这个过程迭代进行,直到达到全局可满足的状态。
关键创新:最重要的技术创新点在于将外部求解器集成到LLM的多查询推理流程中,实现对全局逻辑一致性的显式验证和修复。与现有方法相比,该方法不仅关注单个查询的准确性,更关注多个查询之间的逻辑一致性,从而提高了推理的可靠性。
关键设计:论文的关键设计包括:1) 使用SMT求解器进行可满足性验证。2) 设计反例引导修复策略,指导LLM修改回答。3) 定义集合层面的评估指标,如案例可满足率、矛盾密度和修正成本,用于评估多查询推理的一致性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在四个推理领域(包括常识推理、数学推理等)显著减少了跨查询矛盾。例如,集合一致性(SetCons)从0.56提升到0.94,同时保持了单查询的准确性。这些结果表明,全局一致性对于鲁棒的多查询推理至关重要。
🎯 应用场景
该研究成果可应用于需要高度一致性的多轮对话系统、知识图谱构建、智能问答系统等领域。通过确保LLM在处理多个相关查询时保持逻辑一致性,可以提高系统的可靠性和用户体验,并为构建更值得信赖的人工智能系统奠定基础。
📄 摘要(原文)
Large language models frequently produce mutually inconsistent answers when reasoning over multiple related queries. We study case-file logical consistency: maintaining a globally satisfiable belief state across interdependent queries. We introduce a benchmark of 390 multi-query reasoning instances with entailment/contradiction/unknown labels and propose set-level metrics including Case Satisfiability Rate, Contradiction Density and Revision Cost. Our solver-augmented approach extracts commitments, verifies global satisfiability and performs counterexample-guided repair. Across four reasoning domains, our method substantially reduces cross-query contradictions (SetCons: 0.56 to 0.94) while preserving per-query accuracy, demonstrating that global coherence is critical for robust multi-query reasoning.