Effects of structure on reasoning in instance-level Self-Discover

📄 arXiv: 2507.03347v1 📥 PDF

作者: Sachith Gunasekara, Yasiru Ratnayake

分类: cs.AI

发布日期: 2025-07-04


💡 一句话要点

提出iSelf-Discover框架,揭示非结构化推理在复杂问题求解中优于结构化推理。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 推理 结构化输出 非结构化输出 思维链 自发现 问题求解

📋 核心要点

  1. 现有方法依赖结构化输出以提高LLM推理的可预测性,但可能牺牲性能,且计算成本高昂。
  2. iSelf-Discover框架通过实例级别的自发现,动态生成结构化和非结构化推理方案,进行公平比较。
  3. 实验表明,在复杂任务中,非结构化推理通常优于结构化推理,尤其是在MATH基准测试中。

📝 摘要(中文)

在复合系统中,可预测的LLM推理越来越重要,结构化输出因此流行,但其性能与非结构化自然语言相比仍存在担忧。同时,基于非结构化思维链(CoT)训练产生了强大的推理模型,但也带来了计算成本和忠实性挑战。本文提出了iSelf-Discover,一种实例级别的Self-Discover框架,并使用它比较了动态生成的结构化JSON推理与非结构化推理。在多个基准测试上的实证评估表明,非结构化推理具有一致的优势。值得注意的是,在复杂的MATH基准测试中,非结构化方案的性能比结构化方法提高了高达18.90%。零样本非结构化iSelf-Discover变体也优于其五样本结构化对应物,突显了这种差距的重要性,即使结构化方案是动态生成的,以确保推理先于最终答案。我们进一步证明了方案生成的最佳粒度(实例级别与任务级别)取决于上下文。这些发现促使我们重新评估对结构化格式在复杂问题求解中的依赖,以及如何组织复合系统。

🔬 方法详解

问题定义:现有方法在利用大型语言模型(LLM)进行复杂问题求解时,倾向于采用结构化输出,例如JSON格式,以提高推理过程的可控性和可解释性。然而,这种结构化约束可能会限制LLM的表达能力,导致性能下降。此外,非结构化的思维链(Chain-of-Thought, CoT)方法虽然强大,但计算成本高昂,且难以保证推理的忠实性。因此,如何平衡LLM推理的结构化与非结构化,以及如何在计算资源有限的情况下实现高性能的推理,是本文要解决的核心问题。

核心思路:本文的核心思路是通过实例级别的自发现(instance-level Self-Discover)框架,动态地生成结构化和非结构化的推理方案,并在相同的实验条件下进行比较,从而揭示不同推理方式的优劣。这种方法避免了预先定义固定的结构化格式,而是让LLM根据具体的问题实例,自主地探索最佳的推理路径。

技术框架:iSelf-Discover框架的核心流程如下:首先,对于给定的问题实例,LLM会生成一个推理方案(plan),该方案可以是结构化的JSON格式,也可以是非结构化的自然语言。然后,LLM根据生成的方案执行推理过程,并给出最终答案。最后,通过比较不同方案的性能,可以评估结构化和非结构化推理的优劣。框架的关键在于实例级别的自适应性,即LLM可以根据不同的问题实例,动态地调整推理方案的结构和内容。

关键创新:本文最重要的技术创新在于提出了实例级别的自发现框架iSelf-Discover,该框架能够动态地生成结构化和非结构化的推理方案,并进行公平的比较。与传统的静态结构化方法相比,iSelf-Discover能够更好地适应不同的问题实例,从而提高推理性能。此外,本文还揭示了非结构化推理在复杂问题求解中的优势,挑战了长期以来对结构化推理的依赖。

关键设计:iSelf-Discover框架的关键设计包括:1) 使用LLM作为推理方案的生成器,利用其强大的自然语言理解和生成能力;2) 采用实例级别的自适应策略,允许LLM根据不同的问题实例动态地调整推理方案;3) 设计合理的评估指标,用于比较不同推理方案的性能,例如准确率、计算成本等。此外,论文还探讨了方案生成的粒度问题,即应该在实例级别还是任务级别生成方案,并发现最佳粒度取决于具体的上下文。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,在MATH基准测试中,非结构化iSelf-Discover的性能比结构化方法提高了高达18.90%。此外,零样本非结构化iSelf-Discover变体也优于其五样本结构化对应物,表明非结构化推理具有更强的泛化能力。这些结果有力地支持了非结构化推理在复杂问题求解中的优势。

🎯 应用场景

该研究成果可应用于各种需要复杂推理的场景,例如数学问题求解、代码生成、知识图谱推理等。通过动态选择合适的推理方式,可以提高LLM在这些场景中的性能和效率。此外,该研究也为构建更灵活、更智能的复合系统提供了新的思路,有助于推动人工智能技术的发展。

📄 摘要(原文)

The drive for predictable LLM reasoning in their integration with compound systems has popularized structured outputs, yet concerns remain about performance trade-offs compared to unconstrained natural language. At the same time, training on unconstrained Chain of Thought (CoT) traces has brought about a new class of strong reasoning models that nevertheless present novel compute budget and faithfulness challenges. This paper introduces iSelf-Discover, an instance-level adaptation of the Self-Discover framework, and using it compares dynamically generated structured JSON reasoning with its unstructured counterpart. Our empirical evaluation across diverse benchmarks using state-of-the-art open-source models supports a consistent advantage for unstructured reasoning. Notably, on the complex MATH benchmark, unstructured plans achieved relative performance improvements of up to 18.90\% over structured approaches. Zero-shot unstructured iSelf-Discover variants are also shown to outperform their five-shot structured counterparts, underscoring the significance of this gap, even when structured plans are dynamically generated to ensure reasoning precedes the final answer. We further demonstrate that the optimal granularity of plan generation (instance-level vs. task-level) is context-dependent. These findings invite re-evaluation of the reliance on structured formats for complex problem-solving and how compound systems should be organized.