AOP-Smart: A RAG-Enhanced Large Language Model Framework for Adverse Outcome Pathway Analysis
作者: Qinjiang Niu, Lu Yan
分类: cs.CL, cs.AI
发布日期: 2026-04-13
💡 一句话要点
AOP-Smart:一种RAG增强的大语言模型框架,用于不良结局通路分析
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 不良结局通路 大型语言模型 检索增强生成 毒理学 风险评估
📋 核心要点
- 现有大语言模型在AOP问答和推理任务中存在幻觉问题,生成内容可能与事实不符或缺乏证据,限制了其可靠性。
- AOP-Smart框架利用AOP-Wiki数据,通过检索关键事件、关系和AOP信息,增强大语言模型的生成过程,提高结果可靠性。
- 实验表明,AOP-Smart显著提升了GPT、DeepSeek和Gemini在AOP问答任务中的准确率,有效缓解了幻觉问题。
📝 摘要(中文)
不良结局通路(AOPs)是毒理学研究和风险评估中的重要知识框架。近年来,大型语言模型(LLMs)逐渐应用于AOP相关的问答和机制推理任务。然而,由于幻觉问题的存在,即模型可能生成与事实不符或缺乏证据的内容,它们的可靠性仍然有限。为了解决这个问题,本研究提出了一种面向AOP的检索增强生成(RAG)框架AOP-Smart。该方法基于AOP-Wiki的官方XML数据,利用关键事件(KEs)、关键事件关系(KERs)和特定的AOP信息来检索用户问题相关的知识,从而提高大型语言模型生成结果的可靠性。为了评估所提出方法的有效性,本研究构建了一个包含20个AOP相关问答任务的测试集,涵盖KE识别、上下游KE检索和复杂AOP检索任务。在Gemini、DeepSeek和ChatGPT三个主流大型语言模型上进行了实验,并在没有RAG和有RAG两种设置下进行了对比测试。实验结果表明,在不使用RAG的情况下,GPT、DeepSeek和Gemini的准确率分别为15.0%、35.0%和20.0%;在使用RAG后,它们的准确率分别提高到95.0%、100.0%和95.0%。结果表明,AOP-Smart可以显著缓解大型语言模型在AOP知识任务中的幻觉问题,并大大提高其答案的准确性和一致性。
🔬 方法详解
问题定义:论文旨在解决大型语言模型在不良结局通路(AOP)分析任务中存在的“幻觉”问题。现有方法直接使用LLM进行AOP相关的问答和推理,但由于LLM本身固有的知识缺陷和生成机制,容易产生与事实不符或缺乏证据的内容,导致结果不可靠。
核心思路:论文的核心思路是利用检索增强生成(RAG)框架,通过检索AOP-Wiki中的相关知识,为LLM提供更准确和可靠的上下文信息,从而减少幻觉,提高生成结果的准确性和一致性。这种方法将LLM的生成能力与外部知识库的准确性相结合。
技术框架:AOP-Smart框架主要包含以下几个模块:1) AOP-Wiki数据预处理:从官方XML数据中提取关键事件(KEs)、关键事件关系(KERs)和AOP信息,构建知识库。2) 检索模块:根据用户提出的问题,利用KEs、KERs和AOP信息在知识库中检索相关文档。3) 生成模块:将检索到的相关文档作为上下文,输入到LLM中,生成答案。
关键创新:该方法最重要的创新点在于针对AOP领域的特点,设计了专门的RAG框架。它不是简单地将所有AOP-Wiki数据都用于检索,而是有选择性地利用KEs、KERs和AOP信息,从而提高了检索的效率和准确性。此外,该方法针对AOP任务构建了专门的测试集,为评估RAG的效果提供了标准。
关键设计:论文中没有详细说明检索模块的具体实现方式,例如使用的向量化方法、相似度计算方式等。也没有提及生成模块中如何将检索到的文档有效地融入到LLM的输入中,例如是否使用了特定的prompt工程技巧。
🖼️ 关键图片
📊 实验亮点
实验结果表明,AOP-Smart框架显著提高了大型语言模型在AOP问答任务中的准确率。在不使用RAG的情况下,GPT、DeepSeek和Gemini的准确率分别为15.0%、35.0%和20.0%;在使用AOP-Smart后,它们的准确率分别提高到95.0%、100.0%和95.0%。这表明AOP-Smart能够有效缓解LLM的幻觉问题,并显著提升其在AOP知识任务中的性能。
🎯 应用场景
AOP-Smart框架可应用于毒理学研究、风险评估、药物开发等领域。通过提供更准确和可靠的AOP相关知识,可以帮助研究人员更好地理解毒性作用机制,评估化学物质的风险,并加速新药的研发过程。该框架还可以用于构建AOP知识库,为相关领域的专家提供决策支持。
📄 摘要(原文)
Adverse Outcome Pathways (AOPs) are an important knowledge framework in toxicological research and risk assessment. In recent years, large language models (LLMs) have gradually been applied to AOP-related question answering and mechanistic reasoning tasks. However, due to the existence of the hallucination problem, that is, the model may generate content that is inconsistent with facts or lacks evidence, their reliability is still limited. To address this issue, this study proposes an AOP-oriented Retrieval-Augmented Generation (RAG) framework, AOP-Smart. Based on the official XML data from AOP-Wiki, this method uses Key Events (KEs), Key Event Relationships (KERs), and specific AOP information to retrieve relevant knowledge for user questions, thereby improving the reliability of the generated results of large language models. To evaluate the effectiveness of the proposed method, this study constructed a test set containing 20 AOP-related question answering tasks, covering KE identification, upstream and downstream KE retrieval, and complex AOP retrieval tasks. Experiments were conducted on three mainstream large language models, Gemini, DeepSeek, and ChatGPT, and comparative tests were performed under two settings: without RAG and with RAG. The experimental results show that, without using RAG, the accuracies of GPT, DeepSeek, and Gemini were 15.0\%, 35.0\%, and 20.0\%, respectively; after using RAG, their accuracies increased to 95.0\%, 100.0\%, and 95.0\%, respectively. The results indicate that AOP-Smart can significantly alleviate the hallucination problem of large language models in AOP knowledge tasks, and greatly improve the accuracy and consistency of their answers.