Bioalignment: Measuring and Improving LLM Disposition Toward Biological Systems for AI Safety
作者: Trent R Northen, Mingxun Wang
分类: cs.CL
发布日期: 2026-03-10
备注: 17 pages, 4 figures
💡 一句话要点
Bioalignment:通过微调提升LLM对生物系统的倾向性,增强AI安全性
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 生物对齐 AI安全 微调 生物技术 Kelly准则 QLoRA
📋 核心要点
- 现有LLM在合成与生物解决方案间存在偏见,倾向于合成方案,可能导致AI在生物相关领域应用受限。
- 通过构建Bioalignment基准测试并进行微调,提升LLM对生物解决方案的偏好,从而提高AI安全性。
- 实验表明,使用生物领域语料库进行微调,能显著提升LLM对生物解决方案的评分,且不影响通用能力。
📝 摘要(中文)
大型语言模型(LLMs)在互联网规模的语料库上训练,可能表现出系统性偏差,从而增加不期望行为的概率。本研究考察了LLMs在材料、能源、制造和算法四个领域中,对合成技术解决方案与生物技术解决方案的潜在偏见。使用5个前沿模型和5个开源模型,通过50个精心设计的Bioalignment提示,并采用受Kelly准则启发的评估框架进行测量。结果表明,大多数模型在生物对齐方面存在不足,表现出对合成(非生物)解决方案的偏好。进一步研究了微调是否可以提高两个开源模型(Llama 3.2-3B-Instruct和Qwen2.5-3B-Instruct)对生物方法的偏好。使用来自6636篇PMC文章的约2200万tokens的语料库,这些文章强调生物问题解决,首先对Llama 3B进行微调,采用持续训练和指令格式的混合语料库。然后将其扩展到Qwen 3B,仅使用指令格式。发现QLoRA微调显著提高了两个模型对生物解决方案的评分,且未降低通用能力(Holm-Bonferroni校正后的p < 0.001和p < 0.01)。这表明即使少量微调也可以改变模型对生物和生物启发方法与合成方法相对价值的权衡。虽然这项工作侧重于小型开源LLM,但它可能可以扩展到更大的模型,并可用于开发偏向于生物方法模型。我们发布了基准、语料库、代码和适配器权重。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLMs)在面对生物相关问题时,倾向于选择合成解决方案而非生物解决方案的偏见问题。这种偏见可能导致LLMs在生物技术、医药等领域的应用中产生不理想甚至有害的结果。现有方法缺乏有效的评估和纠正LLMs生物偏见的机制。
核心思路:论文的核心思路是通过构建一个专门的生物对齐(Bioalignment)基准测试,来量化LLMs对生物解决方案的偏好程度。然后,通过使用生物领域的语料库对LLMs进行微调,来纠正其偏见,使其更加倾向于生物解决方案。这种方法旨在提高LLMs在生物相关领域的安全性和有效性。
技术框架:该研究的技术框架主要包括三个部分:1) 构建Bioalignment基准测试,包含一系列提示,用于评估LLMs对生物和合成解决方案的偏好;2) 使用生物领域的语料库对LLMs进行微调,采用QLoRA方法以降低计算成本;3) 评估微调后的LLMs在Bioalignment基准测试上的表现,并与原始模型进行比较。
关键创新:该研究的关键创新在于提出了Bioalignment的概念,并构建了相应的基准测试,用于量化LLMs对生物解决方案的偏好程度。此外,该研究还证明了通过微调可以有效地纠正LLMs的生物偏见,而不会显著降低其通用能力。
关键设计:在微调过程中,使用了QLoRA(Quantization-aware Low-Rank Adaptation)技术,这是一种参数高效的微调方法,可以在保持模型性能的同时,显著降低计算成本。使用了混合语料库(持续训练和指令格式)对Llama 3B进行微调,而对Qwen 3B仅使用了指令格式。评估指标包括在Bioalignment基准测试上的得分,以及通用能力测试的结果。
🖼️ 关键图片
📊 实验亮点
实验结果表明,通过QLoRA微调,Llama 3.2-3B-Instruct和Qwen2.5-3B-Instruct模型在Bioalignment基准测试上的得分显著提高(Holm-Bonferroni校正后的p < 0.001和p < 0.01),表明其对生物解决方案的偏好显著增强。同时,通用能力测试表明,微调并未显著降低模型的通用能力。
🎯 应用场景
该研究成果可应用于生物技术、医药研发、环境科学等领域。通过提升LLM对生物解决方案的倾向性,可以帮助研究人员更有效地利用AI进行生物相关问题的分析和解决,例如药物发现、基因工程、生物材料设计等。该研究为开发更安全、更有效的生物领域AI应用奠定了基础。
📄 摘要(原文)
Large language models (LLMs) trained on internet-scale corpora can exhibit systematic biases that increase the probability of unwanted behavior. In this study, we examined potential biases towards synthetic vs. biological technological solutions across four domains (materials, energy, manufacturing, and algorithms). A sample of 5 frontier and 5 open-weight models were measured using 50 curated Bioalignment prompts with a Kelly criterion-inspired evaluation framework. According to this metric, most models were not bioaligned in that they exhibit biases in favor of synthetic (non-biological) solutions. We next examined if fine-tuning could increase the preferences of two open-weight models, Llama 3.2-3B-Instruct and Qwen2.5-3B-Instruct, for biological-based approaches. A curated corpus of ~22M tokens from 6,636 PMC articles emphasizing biological problem-solving was used first to fine-tune Llama 3B with a mixed corpus of continued training and instruction-formatted. This was then extended to Qwen 3B using instruction-formatted only. We found that QLoRA fine-tuning significantly increased the scoring of biological solutions for both models without degrading general capabilities (Holm-Bonferroni-corrected p < 0.001 and p < 0.01, respectively). This suggests that even a small amount of fine-tuning can change how models weigh the relative value of biological and bioinspired vs. synthetic approaches. Although this work focused on small open-weight LLMs, it may be extensible to much larger models and could be used to develop models that favor bio-based approaches. We release the benchmark, corpus, code, and adapter weights.