Multimodal large language model for wheat breeding: a new exploration of smart breeding
作者: Guofeng Yang, Yu Li, Yong He, Zhenjiang Zhou, Lingzhen Ye, Hui Fang, Yiqi Luo, Xuping Feng
分类: cs.LG, cs.AI, cs.CL
发布日期: 2024-11-20
💡 一句话要点
提出多模态大语言模型以解决小麦育种中的知识挖掘问题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 小麦育种 多模态大语言模型 无人机遥感 知识挖掘 智能决策支持 跨领域数据 强化学习 表型估计
📋 核心要点
- 现有育种方法在知识挖掘方面面临技术壁垒和效率挑战,难以有效整合跨领域数据。
- 本研究提出了基于多模态大语言模型的智能育种工具,利用监督微调、检索增强生成和人类反馈强化学习技术进行知识注入。
- 实验结果显示,构建的模型在小麦产量预测中取得了R2为0.821和RMSE为489.254 kg/ha的优异表现,生成的决策支持答案涵盖多个育种任务。
📝 摘要(中文)
无人机遥感技术已成为作物育种中的关键技术,能够高通量、非破坏性地收集作物表型数据。然而,育种的多学科特性带来了技术壁垒和效率挑战。因此,开发智能育种目标工具以挖掘跨领域多模态数据显得尤为重要。本研究基于不同的预训练开源多模态大语言模型,采用监督微调、检索增强生成和人类反馈强化学习等技术,构建了多个小麦育种多模态大语言模型。实验结果表明,结合这些技术的模型在小麦产量预测中表现优异,生成的专业决策支持答案涵盖了多个育种相关任务。
🔬 方法详解
问题定义:本研究旨在解决小麦育种中跨领域数据的知识挖掘问题,现有方法在整合多模态数据时效率低下,难以满足育种需求。
核心思路:通过构建多模态大语言模型,结合监督微调、检索增强生成和人类反馈强化学习技术,注入跨领域知识,从而提升模型在育种任务中的表现。
技术框架:整体架构包括数据收集、模型预训练、知识注入和模型评估四个主要阶段。首先收集遥感、表型、气象和种质等多模态数据,然后对模型进行预训练,接着通过不同技术进行知识注入,最后使用新创建的评估基准进行模型评估。
关键创新:本研究的创新点在于将多种技术结合应用于小麦育种领域,尤其是通过人类反馈强化学习来优化生成质量,显著提升了模型的适应性和准确性。
关键设计:在模型训练过程中,采用了特定的损失函数和参数设置,以确保生成结果的质量和多样性,同时通过消融实验验证了各技术组合的有效性。
📊 实验亮点
实验结果表明,结合监督微调、检索增强生成和人类反馈强化学习的模型在小麦产量预测中表现优异,R2达到0.821,RMSE为489.254 kg/ha,显著优于传统方法,展示了多模态数据整合的潜力。
🎯 应用场景
该研究的成果可广泛应用于农业育种领域,特别是在小麦育种中,通过智能决策支持系统帮助育种专家进行表型估计、环境压力评估和种质筛选等任务,提升育种效率和准确性,具有重要的实际价值和未来影响。
📄 摘要(原文)
UAV remote sensing technology has become a key technology in crop breeding, which can achieve high-throughput and non-destructive collection of crop phenotyping data. However, the multidisciplinary nature of breeding has brought technical barriers and efficiency challenges to knowledge mining. Therefore, it is important to develop a smart breeding goal tool to mine cross-domain multimodal data. Based on different pre-trained open-source multimodal large language models (MLLMs) (e.g., Qwen-VL, InternVL, Deepseek-VL), this study used supervised fine-tuning (SFT), retrieval-augmented generation (RAG), and reinforcement learning from human feedback (RLHF) technologies to inject cross-domain knowledge into MLLMs, thereby constructing multiple multimodal large language models for wheat breeding (WBLMs). The above WBLMs were evaluated using the newly created evaluation benchmark in this study. The results showed that the WBLM constructed using SFT, RAG and RLHF technologies and InternVL2-8B has leading performance. Then, subsequent experiments were conducted using the WBLM. Ablation experiments indicated that the combination of SFT, RAG, and RLHF technologies can improve the overall generation performance, enhance the generated quality, balance the timeliness and adaptability of the generated answer, and reduce hallucinations and biases. The WBLM performed best in wheat yield prediction using cross-domain data (remote sensing, phenotyping, weather, germplasm) simultaneously, with R2 and RMSE of 0.821 and 489.254 kg/ha, respectively. Furthermore, the WBLM can generate professional decision support answers for phenotyping estimation, environmental stress assessment, target germplasm screening, cultivation technique recommendation, and seed price query tasks.