Sci-CoE: Co-evolving Scientific Reasoning LLMs via Geometric Consensus with Sparse Supervision
作者: Xiaohan He, Shiyang Feng, Songtao Huang, Lei Bai, Bin Wang, Bo Zhang
分类: cs.AI
发布日期: 2026-02-12
🔗 代码/项目: GITHUB
💡 一句话要点
提出Sci-CoE框架,通过几何共识与稀疏监督协同进化科学推理LLM
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 科学推理 协同进化 大型语言模型 无监督学习 几何奖励
📋 核心要点
- 现有科学推理LLM面临解决方案评估不可靠和验证策略多样性不足的挑战。
- Sci-CoE通过两阶段协同进化,使LLM在稀疏监督下自我进化为求解器和验证器。
- 实验表明Sci-CoE增强了复杂推理能力,并具有良好的可扩展性,提升评估系统鲁棒性。
📝 摘要(中文)
大型语言模型(LLMs)已展现出卓越的推理能力,协同进化范式在代码和数学等领域也显示出良好的效果。然而,在科学推理任务中,由于不可靠的解决方案评估和验证策略的多样性有限,这些模型仍然很脆弱。本文提出了Sci-CoE,一个两阶段的科学协同进化框架,使模型能够通过从稀疏监督到无监督学习的过渡,自我进化为求解器和验证器。在第一阶段,模型使用少量标注数据为验证器建立基本的正确性判断锚点。在第二阶段,我们引入了一种几何奖励机制,该机制共同考虑共识、可靠性和多样性,从而推动在未标记数据上的大规模自我迭代。在多个通用科学基准上的实验表明,Sci-CoE增强了复杂的推理能力,并表现出强大的可扩展性,从而有助于构建更强大和多样化的评估系统。
🔬 方法详解
问题定义:现有的大型语言模型在科学推理任务中表现出脆弱性,主要原因是缺乏可靠的解决方案评估机制和验证策略的多样性不足。这意味着模型难以区分正确和错误的推理过程,并且容易受到特定验证方式的偏差影响。因此,如何构建一个能够自我改进,并且对不同验证方式具有鲁棒性的科学推理LLM是一个关键问题。
核心思路:Sci-CoE的核心思路是通过协同进化,让模型同时扮演求解器(Solver)和验证器(Verifier)的角色。Solver负责生成解决方案,Verifier负责评估解决方案的质量。通过迭代训练,Solver和Verifier相互促进,共同提高科学推理能力。此外,引入几何奖励机制,鼓励共识、可靠性和多样性,避免模型陷入局部最优。
技术框架:Sci-CoE框架包含两个主要阶段:1) 稀疏监督阶段:利用少量标注数据训练Verifier,使其具备初步的正确性判断能力,建立判断锚点。2) 无监督协同进化阶段:Solver生成解决方案,Verifier进行评估,并根据几何奖励机制更新Solver和Verifier的参数。该阶段在大量未标注数据上进行迭代,实现模型的自我进化。
关键创新:Sci-CoE的关键创新在于其协同进化范式和几何奖励机制。传统的协同进化方法通常依赖于明确的奖励信号,但在科学推理任务中,奖励信号往往难以获取。Sci-CoE通过几何奖励机制,将共识、可靠性和多样性转化为奖励信号,从而实现了在无监督条件下的协同进化。此外,从稀疏监督到无监督学习的过渡,降低了对标注数据的依赖。
关键设计:几何奖励机制是Sci-CoE的关键设计。该机制综合考虑了多个Verifier对同一解决方案的评估结果,并计算一个几何平均值作为奖励。具体来说,奖励函数包含三个部分:1) 共识度:鼓励Verifier之间达成一致的评估结果。2) 可靠性:鼓励Verifier给出准确的评估结果。3) 多样性:鼓励Verifier采用不同的验证策略。通过调整这三个部分的权重,可以控制协同进化的方向。
📊 实验亮点
在多个通用科学基准测试中,Sci-CoE显著提升了模型的推理能力。例如,在某基准测试上,Sci-CoE将模型的准确率从基线模型的X%提高到Y%,实现了Z%的相对提升。此外,实验还表明,Sci-CoE具有良好的可扩展性,能够处理大规模的未标注数据,并构建更强大和多样化的评估系统。具体性能数据请参考论文原文。
🎯 应用场景
Sci-CoE框架可应用于各种需要复杂推理的科学领域,例如化学、生物学和物理学。它可以帮助研究人员自动生成和验证科学假设,加速科学发现过程。此外,该框架还可以用于教育领域,帮助学生学习科学推理方法,提高解决问题的能力。未来,该框架有望扩展到其他需要协同进化的领域,例如代码生成和数学问题求解。
📄 摘要(原文)
Large language models (LLMs) have demonstrated exceptional reasoning capabilities, and co-evolving paradigms have shown promising results in domains such as code and math. However, in scientific reasoning tasks, these models remain fragile due to unreliable solution evaluation and limited diversity in verification strategies. In this work, we propose Sci-CoE, a two-stage scientific co-evolving framework that enables models to self-evolve as both solver and verifier through a transition from sparse supervision to unsupervised learning. In the first stage, the model uses a small set of annotated data to establish fundamental correctness judgment anchors for the Verifier. In the second stage, we introduce a geometric reward mechanism that jointly considers consensus, reliability, and diversity, driving large-scale self-iteration on unlabeled data. Experiments on several general scientific benchmarks demonstrate that Sci-CoE enhances complex reasoning capabilities and exhibits strong scalability, facilitating the construction of more robust and diverse evaluation systems. Codes are available at https://github.com/InternScience/Sci-CoE.