Toward Reliable Scientific Hypothesis Generation: Evaluating Truthfulness and Hallucination in Large Language Models

📄 arXiv: 2505.14599v2 📥 PDF

作者: Guangzhi Xiong, Eric Xie, Corey Williams, Myles Kim, Amir Hassan Shariatmadari, Sikun Guo, Stefan Bekiranov, Aidong Zhang

分类: cs.CL, cs.AI

发布日期: 2025-05-20 (更新: 2025-06-08)

备注: Accepted to IJCAI 2025

🔗 代码/项目: GITHUB


💡 一句话要点

提出TruthHypo基准和KnowHD检测器,评估LLM生成科学假设的真实性和幻觉问题。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 科学假设生成 真实性评估 幻觉检测 知识图谱

📋 核心要点

  1. 现有方法难以有效评估LLM生成科学假设的真实性,验证过程耗时且成本高昂。
  2. 论文提出TruthHypo基准和KnowHD检测器,旨在系统评估LLM生成假设的真实性和减少幻觉。
  3. 实验结果表明,KnowHD能有效过滤LLM生成的真实假设,并加速科学发现,人工评估验证了其有效性。

📝 摘要(中文)

大型语言模型(LLMs)在生物医学等科学领域展现出巨大潜力,尤其是在假设生成方面,它们能够分析大量文献、识别模式并提出研究方向。然而,评估生成假设的真实性是一个关键挑战,因为验证其准确性通常需要大量时间和资源。此外,LLMs中的幻觉问题可能导致生成看似合理但最终不正确的假设,从而降低其可靠性。为了促进对这些挑战的系统研究,我们引入了TruthHypo,这是一个用于评估LLMs生成真实科学假设能力的基准,以及KnowHD,一个基于知识的幻觉检测器,用于评估假设在多大程度上基于现有知识。我们的结果表明,LLMs在生成真实假设方面存在困难。通过分析推理步骤中的幻觉,我们证明了KnowHD提供的基于知识的分数可以作为从LLMs的各种输出中过滤真实假设的有效指标。人工评估进一步验证了KnowHD在识别真实假设和加速科学发现方面的效用。我们的数据和源代码可在https://github.com/Teddy-XiongGZ/TruthHypo获得。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLMs)在科学假设生成中存在的真实性验证难题和幻觉问题。现有方法缺乏有效的评估工具,验证假设的准确性需要耗费大量时间和资源。LLM的幻觉问题会导致生成看似合理但实际上错误的假设,严重影响其在科学研究中的可靠性。

核心思路:论文的核心思路是构建一个基准数据集(TruthHypo)和一个知识驱动的幻觉检测器(KnowHD),用于系统地评估LLM生成科学假设的真实性和识别幻觉。KnowHD通过评估假设与现有知识的关联程度来判断其真实性。

技术框架:整体框架包含两个主要部分:TruthHypo基准数据集的构建和KnowHD幻觉检测器的设计。TruthHypo包含一系列科学假设,并标注了其真实性。KnowHD检测器则利用知识图谱或科学文献等外部知识源,评估LLM生成的假设与这些知识源的一致性。框架通过计算假设的groundedness score来衡量其真实性。

关键创新:论文的关键创新在于提出了KnowHD,一个基于知识的幻觉检测器,它能够有效地评估LLM生成的科学假设的真实性。与传统的依赖人工评估的方法相比,KnowHD能够自动化地评估假设的真实性,大大降低了验证成本。KnowHD通过衡量假设与现有知识的关联程度来判断其真实性,这是一种新颖且有效的方法。

关键设计:KnowHD的关键设计包括:1)选择合适的知识源,例如知识图谱或科学文献;2)设计有效的知识关联算法,用于评估假设与知识源的一致性;3)定义合适的groundedness score,用于衡量假设的真实性。具体的参数设置、损失函数和网络结构等技术细节在论文中未详细说明,属于未来的研究方向。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,LLMs在生成真实假设方面表现不佳,但KnowHD能够有效过滤LLM生成的真实假设。KnowHD提供的groundedness score可以作为评估假设真实性的有效指标。人工评估进一步验证了KnowHD在识别真实假设和加速科学发现方面的实用性。具体性能数据和提升幅度在摘要中未明确给出。

🎯 应用场景

该研究成果可应用于生物医学、化学、材料科学等多个科学领域,帮助研究人员快速筛选LLM生成的有价值的科学假设,加速科学发现过程。KnowHD可以作为LLM科学研究助手的一部分,提高科研效率,降低科研成本,并促进跨学科合作。

📄 摘要(原文)

Large language models (LLMs) have shown significant potential in scientific disciplines such as biomedicine, particularly in hypothesis generation, where they can analyze vast literature, identify patterns, and suggest research directions. However, a key challenge lies in evaluating the truthfulness of generated hypotheses, as verifying their accuracy often requires substantial time and resources. Additionally, the hallucination problem in LLMs can lead to the generation of hypotheses that appear plausible but are ultimately incorrect, undermining their reliability. To facilitate the systematic study of these challenges, we introduce TruthHypo, a benchmark for assessing the capabilities of LLMs in generating truthful scientific hypotheses, and KnowHD, a knowledge-based hallucination detector to evaluate how well hypotheses are grounded in existing knowledge. Our results show that LLMs struggle to generate truthful hypotheses. By analyzing hallucinations in reasoning steps, we demonstrate that the groundedness scores provided by KnowHD serve as an effective metric for filtering truthful hypotheses from the diverse outputs of LLMs. Human evaluations further validate the utility of KnowHD in identifying truthful hypotheses and accelerating scientific discovery. Our data and source code are available at https://github.com/Teddy-XiongGZ/TruthHypo.