Learning to Reason via Mixture-of-Thought for Logical Reasoning

📄 arXiv: 2505.15817v2 📥 PDF

作者: Tong Zheng, Lichang Chen, Simeng Han, R. Thomas McCoy, Heng Huang

分类: cs.CL

发布日期: 2025-05-21 (更新: 2025-06-09)

备注: 38 pages


💡 一句话要点

提出混合思维(MoT)框架,用于提升LLM在逻辑推理中的性能。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 逻辑推理 多模态学习 大型语言模型 混合思维 真值表推理 自进化训练 代码推理

📋 核心要点

  1. 现有基于LLM的逻辑推理方法主要依赖单一模态(自然语言),限制了模型对不同信息表征形式的理解和利用。
  2. MoT框架通过融合自然语言、代码和真值表三种模态,使LLM能够从不同角度理解和解决逻辑问题,提升推理能力。
  3. 实验结果表明,MoT框架在逻辑推理基准测试中显著优于单模态方法,尤其在困难问题上表现更佳,验证了多模态融合的有效性。

📝 摘要(中文)

本文提出了一种名为混合思维(MoT)的框架,旨在提升大型语言模型(LLM)在逻辑推理方面的能力。与现有方法主要依赖单一模态(通常是自然语言)进行训练不同,MoT 允许 LLM 跨越三种互补的模态进行推理:自然语言、代码和一种新引入的符号模态——真值表。MoT 采用两阶段设计:(1) 自进化 MoT 训练,联合学习来自跨模态的过滤后的自生成推理链;(2) MoT 推理,充分利用三种模态的协同作用以产生更好的预测。在 FOLIO 和 ProofWriter 等逻辑推理基准测试上的实验表明,MoT 框架始终显著优于使用单模态思维链方法的强大 LLM 基线,平均准确率提升高达 +11.7 个百分点。进一步的分析表明,MoT 框架在训练和推理阶段均有益处,尤其是在更困难的逻辑推理问题上表现出色。不同的模态贡献了互补的优势,其中真值表推理有助于克服自然语言推理中的关键瓶颈。

🔬 方法详解

问题定义:现有基于大型语言模型(LLM)的逻辑推理方法,主要依赖单一的自然语言模态进行训练和推理。这种单模态的局限性在于,LLM难以充分利用不同形式的知识表示,例如代码和符号逻辑,从而导致在复杂逻辑推理任务中表现不佳。现有方法在推理时可能会进行模态选择或增强,但训练过程仍然是模态盲的,限制了模态之间的协同作用。

核心思路:本文的核心思路是让LLM能够同时利用多种模态进行逻辑推理,从而克服单模态的局限性。具体而言,引入了代码和真值表两种新的模态,并设计了一个混合思维(MoT)框架,使得LLM能够从自然语言、代码和真值表三个角度理解和解决逻辑问题。这种多模态融合的思想旨在提升LLM的推理能力和泛化能力。

技术框架:MoT框架包含两个主要阶段:自进化MoT训练和MoT推理。在自进化MoT训练阶段,首先利用LLM自生成跨模态的推理链,然后对这些推理链进行过滤,选择高质量的样本用于训练。LLM通过联合学习来自不同模态的推理链,从而掌握多模态推理的能力。在MoT推理阶段,LLM同时利用自然语言、代码和真值表三种模态进行推理,并将不同模态的推理结果进行融合,最终得到预测结果。

关键创新:MoT框架的关键创新在于引入了真值表作为一种新的推理模态,并设计了一个自进化训练流程,使得LLM能够有效地学习多模态推理。真值表能够系统地枚举所有可能的逻辑情况,从而部分缓解了自然语言推理中的一些关键失败模式。此外,MoT框架还能够充分利用不同模态之间的协同作用,从而提升整体的推理性能。

关键设计:在自进化MoT训练阶段,采用了过滤机制来选择高质量的推理链。具体而言,使用一个预训练的验证模型来评估推理链的质量,并只选择得分高于阈值的推理链用于训练。在MoT推理阶段,采用了加权融合的方法来融合不同模态的推理结果。权重的选择可以基于验证集上的性能进行调整。

🖼️ 关键图片

img_0

📊 实验亮点

实验结果表明,MoT框架在FOLIO和ProofWriter等逻辑推理基准测试中显著优于单模态方法,平均准确率提升高达+11.7个百分点。尤其是在更困难的逻辑推理问题上,MoT框架的优势更加明显。分析表明,真值表推理能够有效克服自然语言推理中的关键瓶颈,不同模态之间存在互补的优势。

🎯 应用场景

该研究成果可应用于智能问答、知识图谱推理、程序验证等领域。通过融合多种模态的推理能力,可以提升LLM在复杂逻辑推理任务中的表现,使其能够更好地理解和解决现实世界中的问题。未来,该方法有望应用于更广泛的领域,例如医疗诊断、金融分析等。

📄 摘要(原文)

Human beings naturally utilize multiple reasoning modalities to learn and solve logical problems, i.e., different representational formats such as natural language, code, and symbolic logic. In contrast, most existing LLM-based approaches operate with a single reasoning modality during training, typically natural language. Although some methods explored modality selection or augmentation at inference time, the training process remains modality-blind, limiting synergy among modalities. To fill in this gap, we propose Mixture-of-Thought (MoT), a framework that enables LLMs to reason across three complementary modalities: natural language, code, and a newly introduced symbolic modality, truth-table, which systematically enumerates logical cases and partially mitigates key failure modes in natural language reasoning. MoT adopts a two-phase design: (1) self-evolving MoT training, which jointly learns from filtered, self-generated rationales across modalities; and (2) MoT inference, which fully leverages the synergy of three modalities to produce better predictions. Experiments on logical reasoning benchmarks including FOLIO and ProofWriter demonstrate that our MoT framework consistently and significantly outperforms strong LLM baselines with single-modality chain-of-thought approaches, achieving up to +11.7pp average accuracy gain. Further analyses show that our MoT framework benefits both training and inference stages; that it is particularly effective on harder logical reasoning problems; and that different modalities contribute complementary strengths, with truth-table reasoning helping to overcome key bottlenecks in natural language inference.