From 0-Order Selection to 2-Order Judgment: Combinatorial Hardening Exposes Compositional Failures in Frontier LLMs

📄 arXiv: 2605.07268v1 📥 PDF

作者: Hanmeng Liu, Shichao Weng, Xiulai Liu, Zhicai Zhang, Anli Yan, Xiaozhang Liu

分类: cs.CL

发布日期: 2026-05-08


💡 一句话要点

提出LogiHard框架:通过组合硬化技术揭示前沿大模型在逻辑推理中的组合性缺陷

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 逻辑推理 基准测试 组合硬化 项目反应理论 认知评估 模型鲁棒性

📋 核心要点

  1. 现有推理基准因模型性能饱和与数据污染导致评估失效,且传统硬化手段常破坏逻辑严谨性。
  2. 提出LogiHard框架,通过将0阶选择题转化为2阶逻辑判断,强制增加推理深度与思维开销。
  3. 实验表明,该方法导致模型准确率大幅下降,揭示了模型在组合推理与完整性验证上的本质缺陷。

📝 摘要(中文)

多项选择推理基准正面临模型性能快速饱和与数据污染的双重挑战。现有的硬化方法(如改写、扰动)往往以牺牲逻辑有效性为代价来增加表面复杂度,难以有效评估先进推理模型。本文提出了LogiHard,这是一个将0阶选择题确定性地转化为2阶逻辑判断题的形式化框架,显著增加了思维开销与推理步骤。该框架集成了项目反应理论(IRT)以实现计算机自适应测试(CAT),从而以更少的题目实现精确的难度控制。我们构建了LogiHard-2k数据集,通过对高难度考试题进行9维思维轨迹分析及组合变换。在十二个顶尖模型上的评估显示,组合硬化后的题目导致模型准确率下降31%至56%。研究发现,大模型存在人类测试者所不具备的多选失败与提前退出偏差,且在MMLU上的零样本迁移表现出47%的性能衰减,证实了该方法在保持逻辑有效性的前提下,能有效揭示模型在组合推理与完整性验证方面的训练诱导性缺陷。

🔬 方法详解

问题定义:现有逻辑推理基准难以区分模型的真实推理能力与模式匹配能力。传统硬化方法(如同义词替换)仅增加了表面难度,未能触及逻辑推理的核心,导致模型在面对复杂组合逻辑时表现出虚高的准确率。

核心思路:引入“组合硬化(Combinatorial Hardening)”概念,通过将简单的单项选择题转化为需要多维度逻辑判断的组合问题,迫使模型进行多步推理,从而暴露其在处理复杂逻辑结构时的组合性失效问题。

技术框架:LogiHard包含三个核心阶段:首先,利用9维思维轨迹分析对高难度题目进行认知分级;其次,应用组合变换算法将题目转化为2阶逻辑判断形式;最后,集成项目反应理论(IRT)构建自适应测试系统,实现对模型推理能力的精确量化评估。

关键创新:核心创新在于将逻辑推理从“选择”提升为“判断”,通过确定性的组合变换,在保持题目逻辑有效性的前提下,显著提升了推理难度,有效规避了模型通过捷径(Shortcut)获取答案的风险。

关键设计:采用了基于IRT的计算机自适应测试(CAT),通过动态调整题目难度序列,以最小的测试样本量实现对模型推理能力的精准定位,并引入了针对模型“提前退出偏差”的检测机制,用于量化模型在处理复杂逻辑时的鲁棒性。

🖼️ 关键图片

fig_0

📊 实验亮点

在十二个SOTA模型上的测试显示,组合硬化导致准确率下降31%至56%;在MMLU数据集上的零样本迁移测试中,准确率从89.84%骤降至42.86%。实验证实了模型普遍存在“多选失败”与“提前退出”偏差,揭示了模型在复杂逻辑组合任务中的系统性能力缺口。

🎯 应用场景

该研究可广泛应用于大模型推理能力的基准测试与评估体系中,特别适用于高风险领域(如法律、医疗、科学研究)的逻辑验证。此外,该方法可作为模型训练的诊断工具,帮助开发者识别模型在组合推理与逻辑完整性验证方面的短板,从而指导针对性的强化训练。

📄 摘要(原文)

Multiple-choice reasoning benchmarks face dual challenges: rapid saturation from advancing models and data contamination that undermines static evaluations. Ad-hoc hardening methods (paraphrasing, perturbation) attempt to increase difficulty but sacrifice logical validity for surface complexity, falling short to challenge advanced reasoning models. We present LogiHard, a formal framework that deterministically transforms 0-order selection into 2-order logical judgment, which significantly increases the thinking overhead and reasoning steps. The framework integrates Item Response Theory (IRT) for computerized adaptive testing (CAT), enabling precise difficulty control with fewer questions than static benchmarks. We instantiate LogiHard-2k, a logical reasoning dataset constructed by cognitively ranking high-stakes examination questions via 9-dimensional analysis of model thinking traces, followed by combinatorial transformation of high-difficulty items. Evaluation across twelve state-of-the-art models reveals an accuracy degradation ranging from 31% to 56% on combinatorially hardened questions. LLMs suffer from the multi-select failure and early exit bias, which are not shared by human testees. Zero-shot transfer to MMLU demonstrates 47% accuracy degradation (89.84% to 42.86%), confirming applicability across domains with provable validity preservation. The consistent aggregate degeneration is domain-agnostic and stems not from knowledge deficits but from a combinatorial reasoning gap, reflecting a training-induced completeness-verification deficit.