SciCore-Mol: Augmenting Large Language Models with Pluggable Molecular Cognition Modules
作者: Yuxuan Chen, Changwei Lv, Yunduo Xiao, Zhongjing Du, Daquan Zhou, Yukun Yan, Zheni Zeng, Zhiyuan Liu
分类: cs.AI
发布日期: 2026-05-21
备注: 15 pages, 4 figures, 9 tables. Preprint
💡 一句话要点
SciCore-Mol:通过可插拔分子认知模块增强大型语言模型
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 分子认知 化学信息学 分子生成 反应预测
📋 核心要点
- 现有大型语言模型在处理分子等异构科学数据时,由于语言符号与分子拓扑结构间的差异,存在信息损失和语义噪声问题。
- SciCore-Mol通过拓扑感知、分子生成和反应感知三个可插拔认知模块,弥合了语言与分子数据之间的鸿沟。
- 实验结果表明,SciCore-Mol在分子理解、生成和反应预测等任务上表现出色,其80亿参数开源系统性能可与专有模型媲美。
📝 摘要(中文)
大型语言模型(LLM)是通用智能范式的核心,但在处理异构科学数据(如分子)时面临根本挑战:离散语言符号与拓扑分子或连续反应数据之间的固有差距导致基于文本的推理中出现严重的信息丢失和语义噪声。我们提出了SciCore-Mol,一个模块化框架,通过三个深度集成的可插拔认知模块来弥合这一差距:拓扑感知模块、基于潜在扩散的分子生成模块和反应感知推理模块。每个模块通过学习的表示接口与LLM主干耦合,从而实现比纯文本工具反馈更丰富的信息交换。在各种化学任务上的实验表明,SciCore-Mol在分子理解、生成、反应预测和一般化学知识方面取得了强大的综合性能,一个80亿参数的开源系统在几个维度上与专有大型模型竞争甚至超越。这项工作为通过解耦、可插拔和灵活编排的模块为LLM配备科学专业知识提供了一个系统的蓝图,对药物设计、化学合成和更广泛的科学发现具有直接影响。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)在处理分子等异构科学数据时面临的挑战。现有方法主要依赖于文本描述,无法充分捕捉分子的拓扑结构和反应信息,导致信息损失和语义噪声,限制了LLM在化学领域的应用。
核心思路:论文的核心思路是通过引入可插拔的分子认知模块,增强LLM对分子数据的理解和推理能力。这些模块能够处理分子的拓扑结构、生成新的分子结构,并进行反应预测,从而弥合语言符号与分子数据之间的差距。
技术框架:SciCore-Mol框架包含三个主要模块:1) 拓扑感知模块,用于提取分子的拓扑结构特征;2) 基于潜在扩散的分子生成模块,用于生成新的分子结构;3) 反应感知推理模块,用于预测化学反应的结果。这些模块通过学习的表示接口与LLM主干连接,实现信息交换。整体流程是,LLM接收任务描述,调用相应的分子认知模块进行处理,然后将模块的输出反馈给LLM,最终由LLM生成答案。
关键创新:该论文的关键创新在于提出了一个模块化的框架,将LLM与分子认知模块深度集成。这种模块化设计使得可以灵活地添加或替换不同的分子认知模块,从而适应不同的化学任务。此外,通过学习的表示接口,实现了比纯文本工具反馈更丰富的信息交换。
关键设计:拓扑感知模块可能使用了图神经网络(GNN)来提取分子拓扑特征。分子生成模块采用了基于潜在扩散的模型,通过逐步去噪的方式生成新的分子结构。反应感知推理模块可能使用了反应模板或基于图神经网络的方法来预测反应结果。具体的损失函数和网络结构等细节可能在论文的补充材料中。
🖼️ 关键图片
📊 实验亮点
SciCore-Mol在分子理解、生成、反应预测和一般化学知识方面取得了强大的综合性能。实验结果表明,一个80亿参数的开源SciCore-Mol系统在几个维度上与专有大型模型竞争甚至超越,证明了该框架的有效性和潜力。
🎯 应用场景
SciCore-Mol框架具有广泛的应用前景,可用于药物设计、化学合成和材料发现等领域。通过增强LLM对分子数据的理解和推理能力,可以加速新药的研发过程,优化化学合成路线,并发现具有特定性质的新材料。该研究为LLM在科学领域的应用提供了一个有价值的蓝图。
📄 摘要(原文)
Large Language Models (LLMs) are central to the one-for-all intelligent paradigm, but they face a fundamental challenge when dealing with heterogeneous scientific data such as molecules: the inherent gap between discrete linguistic symbols and topological molecular or continuous reaction data leads to significant information loss and semantic noise in text-based reasoning. We propose SciCore-Mol, a modular framework that bridges this gap through three deeply integrated pluggable cognitive modules: a topology-aware perception module, a latent diffusion-based molecular generation module, and a reaction-aware reasoning module. Each module is coupled to the LLM backbone through learned representation interfaces, enabling richer information exchange than is possible with text-only tool feedback. Our experiments on diverse chemical tasks demonstrate that SciCore-Mol achieves strong comprehensive performance across molecular understanding, generation, reaction prediction, and general chemistry knowledge, with an 8B-parameter open-source system that is competitive with and in several dimensions surpasses proprietary large models. This work provides a systematic blueprint for equipping LLMs with scientific expertise through decoupled, pluggable, and flexibly orchestrated modules, with direct implications for drug design, chemical synthesis, and broader scientific discovery.