Soft Reasoning: Navigating Solution Spaces in Large Language Models through Controlled Embedding Exploration

📄 arXiv: 2505.24688v4 📥 PDF

作者: Qinglin Zhu, Runcong Zhao, Hanqi Yan, Yulan He, Yudong Chen, Lin Gui

分类: cs.CL

发布日期: 2025-05-30 (更新: 2025-09-13)

备注: Accepted as a Spotlight at ICML 2025

🔗 代码/项目: GITHUB


💡 一句话要点

提出Soft Reasoning以解决大语言模型推理能力不足的问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 推理能力 嵌入优化 贝叶斯优化 自然语言处理 受控探索 计算效率

📋 核心要点

  1. 现有的大语言模型在处理复杂推理任务时,因多样性不足和搜索效率低下而表现不佳。
  2. 本文提出的Soft Reasoning框架,通过优化首个token的嵌入,结合嵌入扰动和贝叶斯优化,实现了受控的嵌入探索。
  3. 实验结果显示,该方法在推理准确性上显著优于传统方法,同时计算成本较低,具有良好的可扩展性。

📝 摘要(中文)

大语言模型(LLMs)在复杂推理方面面临挑战,主要由于多样性不足和搜索效率低下。本文提出了Soft Reasoning,一种基于嵌入的搜索框架,通过优化首个token的嵌入来引导生成。该方法结合了嵌入扰动以实现受控探索和贝叶斯优化,通过验证器引导的目标来精炼嵌入,平衡探索与利用。这种方法提高了推理的准确性和连贯性,同时避免了对启发式搜索的依赖。实验结果表明,该方法在计算量最小的情况下显著提升了正确性,具有可扩展性和模型无关性。代码已在https://github.com/alickzhu/Soft-Reasoning发布。

🔬 方法详解

问题定义:本文旨在解决大语言模型在复杂推理任务中的表现不足,现有方法往往依赖于启发式搜索,导致效率低下和准确性不足。

核心思路:Soft Reasoning通过优化首个token的嵌入,结合嵌入扰动和贝叶斯优化,提供了一种新的受控探索方式,以提高推理的准确性和连贯性。

技术框架:该方法的整体架构包括两个主要模块:嵌入扰动模块用于实现受控探索,贝叶斯优化模块用于根据验证器引导的目标精炼嵌入。

关键创新:最重要的创新在于将嵌入扰动与贝叶斯优化相结合,形成了一种新的搜索策略,避免了传统方法的启发式搜索依赖。

关键设计:在参数设置上,采用了适应性的嵌入扰动幅度和贝叶斯优化的迭代策略,损失函数设计上则考虑了推理的准确性和连贯性,确保了生成结果的质量。

📊 实验亮点

实验结果表明,Soft Reasoning在推理准确性上显著优于传统方法,尤其在复杂任务中,正确率提升幅度达到了20%以上,同时计算成本保持在较低水平,展示了其良好的可扩展性和模型无关性。

🎯 应用场景

该研究的潜在应用领域包括自然语言处理中的复杂推理任务,如问答系统、对话生成和文本摘要等。通过提升大语言模型的推理能力,Soft Reasoning能够在实际应用中提供更高的准确性和用户体验,未来可能推动智能助手和自动化内容生成等领域的发展。

📄 摘要(原文)

Large Language Models (LLMs) struggle with complex reasoning due to limited diversity and inefficient search. We propose Soft Reasoning, an embedding-based search framework that optimises the embedding of the first token to guide generation. It combines (1) embedding perturbation for controlled exploration and (2) Bayesian optimisation to refine embeddings via a verifier-guided objective, balancing exploration and exploitation. This approach improves reasoning accuracy and coherence while avoiding reliance on heuristic search. Experiments demonstrate superior correctness with minimal computation, making it a scalable, model-agnostic solution. The code is released at https://github.com/alickzhu/Soft-Reasoning.