Bolek: A Multimodal Language Model for Molecular Reasoning

📄 arXiv: 2605.02745v1 📥 PDF

作者: Frederic Grabowski, Jacek Szczerbiński, Maciej Jaśkowski, Kalina Jasińska-Kobus, Paweł Dąbrowski-Tumański, Tomasz Jetka, Bartosz Topolski

分类: cs.LG, cs.AI, q-bio.BM

发布日期: 2026-05-04


💡 一句话要点

Bolek:一种用于分子推理的多模态语言模型,提升可审计性。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 分子推理 多模态学习 语言模型 药物发现 可解释性 Morgan指纹 思维链

📋 核心要点

  1. 现有分子性质预测模型缺乏可解释性,难以审计,阻碍了其在高风险药物发现决策中的应用。
  2. Bolek通过将Morgan指纹嵌入注入指令微调的文本解码器,实现了自然语言推理与分子结构的有效结合。
  3. 实验表明,Bolek在分子推理任务上显著优于基线模型,并生成了更具依据和可验证的解释。

📝 摘要(中文)

分子性质模型在药物发现决策中扮演着越来越重要的角色,但其输出结果的可审计性往往较差。传统的预测模型仅返回分数而缺乏解释,而语言模型生成的解释又与输入分子结构的关联性较弱。本文提出了Bolek,一种紧凑的多模态语言模型,通过将Morgan指纹嵌入注入到指令微调的文本解码器中,从而将自然语言推理与分子结构相结合。Bolek在分子对齐任务(包括分子描述、RDKit描述符预测和子结构检测)以及15个TDC二元分类任务的下游推理上进行了微调,使用了基于具体分子特征的合成思维链。实验结果表明,Bolek在所有指标上均优于其Qwen3-4B-Instruct基线,平均ROC/PR AUC从0.55提高到0.76。此外,Bolek在15个二元分类任务中的13个上优于TxGemma-9B-Chat,尽管其模型大小不到后者的一半。Bolek的解释比基线LLM更具依据:它在每个思维链中引用数值描述符的频率高出10-100倍,并且引用的值与RDKit的关键描述符(如TPSA、MolLogP和MolWt)高度一致(Spearman rho = 0.87-0.91)。泛化能力也扩展到训练集之外:在15个未见过的TDC分类端点上,Bolek与TxGemma在五个端点上表现相当,并且在三个保留的回归端点上产生了非平凡的秩相关性,尽管在训练期间从未见过下游回归任务。这些结果表明,有针对性的模态注入和与可验证分子特征相关的推理监督可以产生紧凑、可审计的分子推理模型。

🔬 方法详解

问题定义:论文旨在解决分子性质预测模型的可审计性问题。现有方法,如传统预测模型,仅输出预测结果而缺乏解释;而大型语言模型虽然可以生成解释,但这些解释与输入分子结构的关联性较弱,难以验证其合理性。

核心思路:论文的核心思路是将分子结构信息有效地融入到语言模型中,使得模型在进行分子推理时能够基于具体的分子特征进行解释。通过这种方式,可以提高模型的可解释性和可审计性,并增强其在药物发现等领域的应用价值。

技术框架:Bolek模型基于一个指令微调的文本解码器,并通过注入Morgan指纹嵌入的方式将分子结构信息融入其中。模型的训练过程包括两个阶段:首先,在分子对齐任务上进行微调,包括分子描述、RDKit描述符预测和子结构检测;然后,在下游推理任务上进行微调,使用了基于具体分子特征的合成思维链。

关键创新:论文的关键创新在于将Morgan指纹嵌入作为一种模态注入到语言模型中,从而实现了分子结构信息与自然语言推理的有效结合。这种方法不仅提高了模型在分子推理任务上的性能,还增强了模型的可解释性和可审计性。

关键设计:Bolek模型使用Qwen3-4B-Instruct作为基座模型,并使用Morgan指纹(半径为2,长度为2048)作为分子结构的表示。在训练过程中,使用了交叉熵损失函数,并对思维链中的每个步骤进行监督。此外,论文还设计了一系列合成思维链,用于指导模型进行分子推理,并确保模型能够基于具体的分子特征进行解释。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

Bolek在TDC二元分类任务上,相较于Qwen3-4B-Instruct基线,平均ROC/PR AUC从0.55提升至0.76。在15个二元分类任务中的13个上,Bolek优于TxGemma-9B-Chat,尽管模型大小不到后者的一半。Bolek的解释中数值描述符引用频率高出10-100倍,且引用值与RDKit计算结果高度一致(Spearman rho = 0.87-0.91)。

🎯 应用场景

该研究成果可应用于药物发现领域,辅助药物设计和筛选。Bolek模型的可解释性和可审计性使其能够为药物研发人员提供更可靠的决策依据,加速药物研发进程,并降低研发风险。未来,该方法还可以扩展到其他化学信息学领域,如材料科学和环境科学。

📄 摘要(原文)

Molecular property models increasingly support high-stakes drug-discovery decisions, but their outputs are often difficult to audit: classical predictors return scores without rationale, while language models can produce fluent explanations weakly grounded in the input molecule. We introduce Bolek, a compact multimodal language model that grounds natural-language reasoning in molecular structure by injecting a Morgan fingerprint embedding into an instruction-tuned text decoder. Bolek is fine-tuned on molecular alignment tasks, including molecule description, RDKit descriptor prediction, and substructure detection, and on downstream reasoning over 15 TDC binary classification tasks using synthetic chains-of-thought anchored in concrete molecular features. Across these tasks, Bolek outperforms its Qwen3-4B-Instruct base on all endpoints in yes/no mode and on 13 of 15 in chain-of-thought mode, raising mean ROC/PR AUC from 0.55 to 0.76. It also outperforms TxGemma-9B-Chat on 13 of 15 binary classification tasks despite being less than half its size. Bolek's explanations are more grounded than those of the baseline LLMs: it cites numerical descriptors 10-100x more often per chain-of-thought, and the cited values agree strongly with RDKit for key descriptors such as TPSA, MolLogP, and MolWt (Spearman rho = 0.87-0.91). Generalisation extends beyond the training panel: on 15 unseen TDC classification endpoints, Bolek matches TxGemma on five, and it produces non-trivial rank correlations on three held-out regression endpoints despite never seeing downstream regression during training. These results suggest that targeted modality injection and reasoning supervision tied to verifiable molecular features can yield compact, auditable molecular reasoning models.