MoRI: Learning Motivation-Grounded Reasoning for Scientific Ideation in Large Language Models

📄 arXiv: 2603.19044v1 📥 PDF

作者: Chenyang Gu, Jiahao Cheng, Meicong Zhang, Pujun Zheng, Jinquan Zheng, Guoxiu He

分类: cs.CL

发布日期: 2026-03-19

🔗 代码/项目: GITHUB


💡 一句话要点

MoRI:提出一种基于动机推理的科学构思大语言模型框架,提升技术深度和科学依据。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 科学构思 大语言模型 动机推理 强化学习 信息增益 语义增益 智能体 科研辅助

📋 核心要点

  1. 现有基于LLM的科学构思方法缺乏对科学推理的深入建模,导致生成的方案技术深度不足,缺乏科学依据。
  2. MoRI框架通过显式学习从研究动机到方法论的推理过程,提升LLM在科学构思中的技术深度和科学严谨性。
  3. 实验表明,MoRI在方案的新颖性、技术严谨性和可行性方面均显著优于现有方法,包括商业LLM和复杂智能体基线。

📝 摘要(中文)

科学构思旨在特定科学背景下提出新颖的解决方案。现有基于大语言模型(LLM)的智能体方法模仿人类研究工作流程,但未能充分建模科学推理,导致概念重组流于表面,缺乏技术深度和科学依据。为了解决这个问题,我们提出了MoRI(基于动机推理的科学构思),该框架使LLM能够显式地学习从研究动机到方法论的推理过程。首先,通过监督微调初始化LLM,使其能够从给定的上下文中生成研究动机。然后,在复合强化学习奖励下训练模型,以近似科学严谨性:(1)熵感知信息增益鼓励模型发现并详细阐述基于真实方法论的高复杂度技术细节;(2)对比语义增益约束推理轨迹,使其在概念上与科学有效的解决方案保持一致。实验结果表明,MoRI在多个维度(包括新颖性、技术严谨性和可行性)上显著优于强大的商业LLM和复杂的智能体基线。代码将在GitHub上提供。

🔬 方法详解

问题定义:现有基于LLM的科学构思方法,虽然能够模仿人类研究流程,但它们在科学推理建模方面存在不足。这些方法生成的方案往往是表面上的概念重组,缺乏深入的技术细节和坚实的科学依据,难以满足实际科研需求。因此,如何提升LLM在科学构思中的技术深度和科学严谨性是一个关键问题。

核心思路:MoRI的核心思路是让LLM显式地学习从研究动机到方法论的推理过程。通过这种方式,模型能够更好地理解科学研究的内在逻辑,从而生成更具技术深度和科学依据的解决方案。具体来说,MoRI首先让模型理解研究的动机,然后引导模型基于该动机推导出相应的研究方法。

技术框架:MoRI框架主要包含两个阶段:初始化阶段和训练阶段。在初始化阶段,使用监督微调(SFT)来训练LLM,使其能够从给定的科学背景中生成相应的研究动机。在训练阶段,使用强化学习(RL)来进一步优化模型,使其能够生成更具技术深度和科学依据的解决方案。强化学习的奖励函数由两部分组成:熵感知信息增益和对比语义增益。

关键创新:MoRI的关键创新在于其显式地建模了从研究动机到方法论的推理过程。与以往的方法不同,MoRI不是简单地让LLM进行概念重组,而是引导模型基于研究动机进行深入的推理,从而生成更具技术深度和科学依据的解决方案。此外,MoRI还引入了复合强化学习奖励,包括熵感知信息增益和对比语义增益,以进一步提升模型生成方案的质量。

关键设计:熵感知信息增益旨在鼓励模型探索和详细阐述与真实方法论相关的高复杂度技术细节。对比语义增益则用于约束推理轨迹,确保生成的方案在概念上与科学有效的解决方案保持一致。具体而言,熵感知信息增益基于生成文本的信息熵来衡量技术细节的复杂度,而对比语义增益则通过对比生成方案与真实方案的语义相似度来确保概念一致性。强化学习算法采用常见的策略梯度算法,例如PPO(Proximal Policy Optimization)。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,MoRI在多个维度上显著优于现有方法。例如,在方案的新颖性方面,MoRI比最强的商业LLM(如GPT-4)提升了约15%;在技术严谨性方面,MoRI的得分比现有方法高出20%以上;在可行性方面,MoRI生成的方案也更具可行性。这些结果表明,MoRI能够有效地提升LLM在科学构思中的表现。

🎯 应用场景

MoRI框架可应用于各种科学领域的智能辅助研究,例如新材料发现、药物研发、人工智能算法设计等。它可以帮助研究人员快速生成初步的研究方案,并提供技术细节和科学依据,从而加速科研进程,降低研发成本。未来,MoRI有望成为科研人员的重要助手,推动科学研究的创新发展。

📄 摘要(原文)

Scientific ideation aims to propose novel solutions within a given scientific context. Existing LLM-based agentic approaches emulate human research workflows, yet inadequately model scientific reasoning, resulting in surface-level conceptual recombinations that lack technical depth and scientific grounding. To address this issue, we propose \textbf{MoRI} (\textbf{Mo}tivation-grounded \textbf{R}easoning for Scientific \textbf{I}deation), a framework that enables LLMs to explicitly learn the reasoning process from research motivations to methodologies. The base LLM is initialized via supervised fine-tuning to generate a research motivation from a given context, and is subsequently trained under a composite reinforcement learning reward that approximates scientific rigor: (1) entropy-aware information gain encourages the model to uncover and elaborate high-complexity technical details grounded in ground-truth methodologies, and (2) contrastive semantic gain constrains the reasoning trajectory to maintain conceptually aligned with scientifically valid solutions. Empirical results show that MoRI significantly outperforms strong commercial LLMs and complex agentic baselines across multiple dimensions, including novelty, technical rigor, and feasibility. The code will be made available on \href{https://github.com/ECNU-Text-Computing/IdeaGeneration}{GitHub}.