Exploring Solution Divergence and Its Effect on Large Language Model Problem Solving

📄 arXiv: 2509.22480v1 📥 PDF

作者: Hang Li, Kaiqi Yang, Yucheng Chu, Hui Liu, Jiliang Tang

分类: cs.CL, cs.AI

发布日期: 2025-09-26

备注: 17 pages, 11 figures


💡 一句话要点

探索LLM解题方案发散性及其对问题解决能力的影响

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 问题解决 方案发散性 有监督微调 强化学习

📋 核心要点

  1. 现有LLM训练方法主要依赖标注数据或任务反馈,忽略了解题方案多样性对模型能力的影响。
  2. 论文提出解决方案发散性这一新指标,并发现其与LLM问题解决能力呈正相关。
  3. 实验表明,利用解决方案发散性指标能有效提升LLM在多个问题领域的解题成功率。

📝 摘要(中文)

大型语言模型(LLM)已被广泛应用于解决问题。目前的工作主要通过有监督微调(SFT)或强化学习(RL)来提高LLM的性能。本文研究了一个新的视角:LLM为单个问题生成的解决方案的发散性。研究表明,更高的解决方案发散性与更好的问题解决能力呈正相关。基于这一发现,本文提出将解决方案发散性作为一个新的指标,可以支持SFT和RL策略。在三个代表性问题领域进行的测试表明,使用解决方案发散性能够持续提高成功率。这些结果表明,解决方案发散性是推进LLM训练和评估的一种简单而有效的工具。

🔬 方法详解

问题定义:论文旨在解决如何有效提升大型语言模型(LLM)的问题解决能力。现有方法主要依赖于有监督微调(SFT)和强化学习(RL),但忽略了LLM生成解题方案的多样性,即对于同一个问题,LLM可能存在多种不同的解法。现有方法未能充分利用这些解题方案之间的差异性信息,可能导致模型陷入局部最优或泛化能力不足。

核心思路:论文的核心思路是探索LLM生成的解题方案的发散性(Solution Divergence)与问题解决能力之间的关系。作者假设,对于同一个问题,LLM生成的解题方案越多样化,其问题解决能力越强。因此,可以通过鼓励LLM生成更多样化的解题方案来提升其性能。

技术框架:论文的技术框架主要包括以下几个步骤:1)针对特定问题,利用LLM生成多个解题方案;2)计算这些解题方案之间的发散性,作为衡量解题方案多样性的指标;3)将该发散性指标应用于LLM的训练过程中,例如作为SFT或RL的奖励信号,引导模型生成更多样化的解题方案;4)评估利用发散性指标训练后的LLM在问题解决任务上的性能。

关键创新:论文的关键创新在于提出了解决方案发散性这一新的指标,并将其应用于LLM的训练和评估中。与现有方法相比,该方法充分利用了LLM生成解题方案的多样性信息,能够更有效地提升模型的问题解决能力。此外,该方法具有通用性,可以与现有的SFT和RL方法相结合。

关键设计:论文中关于解决方案发散性的具体计算方法未知,但可以推测可能采用的方法包括:1)基于文本相似度的计算,例如利用BLEU、ROUGE等指标衡量不同解题方案之间的相似度,发散性与相似度成反比;2)基于语义表示的计算,例如利用预训练语言模型(如BERT)提取解题方案的语义向量,然后计算向量之间的距离,距离越大表示发散性越高;3)基于执行结果的计算,例如对于可执行的代码或指令,可以比较不同解题方案的执行结果,如果结果差异较大,则认为发散性较高。

📊 实验亮点

实验结果表明,利用解决方案发散性指标能够持续提高LLM在三个代表性问题领域的解题成功率。具体提升幅度未知,但论文强调该方法在不同模型和任务上均表现出一致的改进效果,证明了其有效性和通用性。该研究为LLM的训练和评估提供了一种简单而有效的工具。

🎯 应用场景

该研究成果可广泛应用于各种需要LLM解决问题的领域,如代码生成、数学问题求解、文本摘要、对话生成等。通过鼓励LLM生成更多样化的解题方案,可以提高其解决复杂问题的能力,并提升用户体验。此外,该研究也为LLM的训练和评估提供了一种新的思路。

📄 摘要(原文)

Large language models (LLMs) have been widely used for problem-solving tasks. Most recent work improves their performance through supervised fine-tuning (SFT) with labeled data or reinforcement learning (RL) from task feedback. In this paper, we study a new perspective: the divergence in solutions generated by LLMs for a single problem. We show that higher solution divergence is positively related to better problem-solving abilities across various models. Based on this finding, we propose solution divergence as a novel metric that can support both SFT and RL strategies. We test this idea on three representative problem domains and find that using solution divergence consistently improves success rates. These results suggest that solution divergence is a simple but effective tool for advancing LLM training and evaluation.