Omanic: Towards Step-wise Evaluation of Multi-hop Reasoning in Large Language Models
作者: Xiaojie Gu, Sherry T. Tong, Aosong Feng, Sophia Simeng Han, Jinghui Lu, Yingjian Chen, Yusuke Iwasawa, Yutaka Matsuo, Chanjun Park, Rex Ying, Irene Li
分类: cs.CL, cs.AI, cs.LG
发布日期: 2026-03-17
🔗 代码/项目: GITHUB | HUGGINGFACE
💡 一句话要点
Omanic:用于大语言模型多跳推理分步评估的基准数据集
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 多跳推理 问答系统 基准数据集 分步评估
📋 核心要点
- 现有大语言模型评估方法难以暴露中间推理步骤,无法判断模型是否真正正确推理以及失败发生在哪里。
- Omanic通过提供分解的子问题和中间答案作为结构化标注,来分析LLM的推理过程,从而诊断推理失败。
- 实验表明,OmanicBench对现有LLM具有挑战性,且OmanicSynth的监督微调能有效提升LLM在其他推理任务上的性能。
📝 摘要(中文)
本文提出Omanic,一个开放域多跳问答资源,旨在通过分解的子问题和中间答案作为结构化标注,来分析大语言模型的推理过程。该资源包含10296个机器生成的训练样本(OmanicSynth)和967个专家评审的人工标注评估样本(OmanicBench)。系统评估表明,最先进的LLM在OmanicBench上仅达到73.11%的选择题准确率,验证了其高难度。逐步分析显示,CoT的性能取决于事实完整性,其增益在知识差距下减小,并且错误在后续跳跃中放大。此外,在OmanicSynth上进行监督微调,在六个推理和数学基准测试中带来了显著的迁移增益(平均7.41分),验证了数据集的质量,并进一步支持了OmanicSynth作为推理能力迁移监督的有效性。数据和代码已开源。
🔬 方法详解
问题定义:现有的大语言模型在推理任务上的评估主要依赖于最终答案的正确性,无法深入了解模型内部的推理过程。这使得我们难以判断模型是否真正进行了正确的推理,以及在推理的哪个步骤出现了错误。现有的多跳问答基准缺乏步骤级别的标注,难以诊断推理失败的原因。
核心思路:Omanic的核心思路是通过提供分解的子问题和中间答案,对多跳推理过程进行结构化标注。这样,我们可以逐个步骤地评估模型的推理能力,并识别出模型在哪个步骤出现了错误。这种分步评估的方法可以更全面、更深入地了解模型的推理能力。
技术框架:Omanic包含两个主要部分:OmanicSynth和OmanicBench。OmanicSynth包含10296个机器生成的训练样本,用于模型的训练和微调。OmanicBench包含967个专家评审的人工标注评估样本,用于评估模型的推理能力。每个样本都包含一个多跳问题、分解的子问题、中间答案和最终答案。评估过程包括对每个子问题的答案进行评估,以及对最终答案进行评估。
关键创新:Omanic的关键创新在于其分步评估的方法和结构化标注的数据集。通过分解问题和提供中间答案,Omanic可以更深入地了解模型的推理过程,并识别出模型在哪个步骤出现了错误。这种方法比传统的只评估最终答案的方法更加全面和有效。
关键设计:OmanicSynth的生成过程使用了基于规则的方法和基于模型的方法,以确保数据的质量和多样性。OmanicBench的标注过程由专家进行评审,以确保标注的准确性和一致性。在评估过程中,使用了多种指标来评估模型的推理能力,包括子问题答案的准确率和最终答案的准确率。
🖼️ 关键图片
📊 实验亮点
OmanicBench的实验结果表明,最先进的LLM在多项选择题上的准确率仅为73.11%,突显了该基准的难度。对CoT(Chain-of-Thought)的逐步分析表明,其性能高度依赖于事实的完整性,知识的缺失会导致性能下降,并且错误会在后续的推理步骤中被放大。在OmanicSynth上进行监督微调后,模型在六个推理和数学基准测试中平均提升了7.41分,证明了OmanicSynth作为推理能力迁移监督的有效性。
🎯 应用场景
Omanic可用于评估和提升大语言模型在复杂推理任务中的能力。通过分析模型在每个推理步骤中的表现,可以帮助研究人员更好地理解模型的推理过程,并针对性地改进模型的架构和训练方法。此外,Omanic还可以用于开发更可靠、更可信赖的AI系统,这些系统需要在关键领域进行准确的推理,例如医疗诊断、金融分析和法律咨询。
📄 摘要(原文)
Reasoning-focused large language models (LLMs) have advanced in many NLP tasks, yet their evaluation remains challenging: final answers alone do not expose the intermediate reasoning steps, making it difficult to determine whether a model truly reasons correctly and where failures occur, while existing multi-hop QA benchmarks lack step-level annotations for diagnosing reasoning failures. To address this gap, we propose Omanic, an open-domain multi-hop QA resource that provides decomposed sub-questions and intermediate answers as structural annotations for analyzing reasoning processes. It contains 10,296 machine-generated training examples (OmanicSynth) and 967 expert-reviewed human-annotated evaluation examples (OmanicBench). Systematic evaluations show that state-of-the-art LLMs achieve only 73.11% multiple-choice accuracy on OmanicBench, confirming its high difficulty. Stepwise analysis reveals that CoT's performance hinges on factual completeness, with its gains diminishing under knowledge gaps and errors amplifying in later hops. Additionally, supervised fine-tuning on OmanicSynth brings substantial transfer gains (7.41 average points) across six reasoning and math benchmarks, validating the dataset's quality and further supporting the effectiveness of OmanicSynth as supervision for reasoning-capability transfer. We release the data at https://huggingface.co/datasets/li-lab/Omanic and the code at https://github.com/XiaojieGu/Omanic.