OrLog: Resolving Complex Queries with LLMs and Probabilistic Reasoning

📄 arXiv: 2601.23085v1 📥 PDF

作者: Mohanna Hoveyda, Jelle Piepenbrock, Arjen P de Vries, Maarten de Rijke, Faegheh Hasibi

分类: cs.IR, cs.AI

发布日期: 2026-01-30

备注: Accepted to ECIR 2026


💡 一句话要点

OrLog:结合LLM和概率推理解决复杂查询,提升检索精度。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 神经符号检索 大型语言模型 概率推理 逻辑约束 信息检索

📋 核心要点

  1. 现有检索系统在处理复杂逻辑约束查询时,要么忽略约束,要么采用不一致的生成式推理,导致检索结果不准确。
  2. OrLog框架将谓词合理性估计与逻辑推理分离,利用LLM评估谓词合理性,再通过概率推理引擎推导查询满足的概率。
  3. 实验表明,OrLog在提供实体描述时,显著提升了top-rank精度,尤其是在析取查询上,同时大幅减少了token使用量。

📝 摘要(中文)

针对带有多个约束的复杂信息需求,需要考虑在候选答案集中强制执行查询中编码的逻辑运算符(例如,合取、析取、否定)。现有的检索系统要么在神经嵌入中忽略这些约束,要么在生成式推理过程中近似它们,这可能导致不一致和不可靠的结果。现有的神经符号方法虽然非常适合结构化推理,但由于它们通常假设明确的查询和对完整证据的访问,因此仍然局限于形式逻辑或数学问题,而这些条件在信息检索中很少满足。为了弥合这一差距,我们引入了OrLog,这是一个神经符号检索框架,它将谓词级别的合理性估计与逻辑推理分离:大型语言模型(LLM)在一个无解码的前向传递中为原子谓词提供合理性分数,概率推理引擎从中推导出查询满足的后验概率。我们在多个骨干LLM、不同级别的外部知识访问和一系列逻辑约束下评估OrLog,并将其与基本检索器和LLM作为推理器的方法进行比较。在提供实体描述的情况下,与LLM推理相比,OrLog可以显着提高top-rank精度,尤其是在析取查询上。OrLog也更有效,每个查询-实体对的平均token数减少了约90%。这些结果表明,无生成谓词合理性估计与概率推理相结合,能够实现约束感知检索,从而在减少token使用量的同时优于整体推理。

🔬 方法详解

问题定义:论文旨在解决复杂查询的信息检索问题,这些查询包含合取、析取、否定等逻辑约束。现有方法要么忽略这些约束,要么使用LLM进行生成式推理,但后者可能产生不一致的结果,且计算成本高昂。神经符号方法虽然擅长结构化推理,但通常依赖于明确的查询和完整的知识,这在实际信息检索场景中难以满足。

核心思路:OrLog的核心思路是将谓词级别的合理性估计与逻辑推理解耦。首先,利用LLM评估查询中各个原子谓词的合理性(plausibility),然后使用概率推理引擎,基于这些合理性得分,计算整个查询被满足的概率。这种解耦允许LLM专注于其擅长的语义理解,而将逻辑推理交给更擅长此任务的概率引擎。

技术框架:OrLog框架包含两个主要模块:1) 谓词合理性估计模块:使用LLM对查询中的每个原子谓词进行评估,输出一个合理性得分。这个过程是无解码的,即LLM不需要生成文本,而是直接输出一个数值。2) 概率推理模块:接收谓词合理性得分作为输入,使用概率逻辑推理引擎(如马尔可夫逻辑网络)计算查询被满足的后验概率。框架的输入是查询和候选实体,输出是实体满足查询的概率。

关键创新:OrLog的关键创新在于将LLM的语义理解能力与概率推理的逻辑推理能力相结合,实现了一种神经符号检索框架。与现有方法相比,OrLog避免了LLM进行复杂的生成式推理,从而提高了效率和可靠性。此外,OrLog通过解耦谓词合理性估计和逻辑推理,使得框架更易于模块化和扩展。

关键设计:在谓词合理性估计模块中,LLM被用于预测每个原子谓词的合理性得分。具体来说,可以将查询和实体描述作为LLM的输入,然后使用一个线性层将LLM的输出映射到一个0到1之间的合理性得分。在概率推理模块中,可以使用马尔可夫逻辑网络(MLN)或其他概率逻辑推理引擎。MLN使用一组加权的一阶逻辑公式来表示查询中的逻辑约束,并使用马尔科夫链蒙特卡洛(MCMC)方法来计算查询被满足的后验概率。权重的设置可以根据经验或通过学习得到。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,在提供实体描述的情况下,OrLog显著提升了top-rank精度,尤其是在析取查询上。与LLM推理相比,OrLog在某些情况下可以将精度提高超过10%。此外,OrLog还大幅减少了token使用量,每个查询-实体对的平均token数减少了约90%,从而提高了检索效率。

🎯 应用场景

OrLog可应用于各种需要处理复杂逻辑约束的检索场景,例如:法律信息检索、专利检索、医学文献检索等。该框架能够更准确地理解用户的查询意图,并返回更相关的结果。此外,OrLog的模块化设计使其易于集成到现有的检索系统中,具有广泛的应用前景。

📄 摘要(原文)

Resolving complex information needs that come with multiple constraints should consider enforcing the logical operators encoded in the query (i.e., conjunction, disjunction, negation) on the candidate answer set. Current retrieval systems either ignore these constraints in neural embeddings or approximate them in a generative reasoning process that can be inconsistent and unreliable. Although well-suited to structured reasoning, existing neuro-symbolic approaches remain confined to formal logic or mathematics problems as they often assume unambiguous queries and access to complete evidence, conditions rarely met in information retrieval. To bridge this gap, we introduce OrLog, a neuro-symbolic retrieval framework that decouples predicate-level plausibility estimation from logical reasoning: a large language model (LLM) provides plausibility scores for atomic predicates in one decoding-free forward pass, from which a probabilistic reasoning engine derives the posterior probability of query satisfaction. We evaluate OrLog across multiple backbone LLMs, varying levels of access to external knowledge, and a range of logical constraints, and compare it against base retrievers and LLM-as-reasoner methods. Provided with entity descriptions, OrLog can significantly boost top-rank precision compared to LLM reasoning with larger gains on disjunctive queries. OrLog is also more efficient, cutting mean tokens by $\sim$90\% per query-entity pair. These results demonstrate that generation-free predicate plausibility estimation combined with probabilistic reasoning enables constraint-aware retrieval that outperforms monolithic reasoning while using far fewer tokens.