Heaven-Sent or Hell-Bent? Benchmarking the Intelligence and Defectiveness of LLM Hallucinations
作者: Chengxu Yang, Jingling Yuan, Siqi Cai, Jiawei Jiang, Chuang Hu
分类: cs.CL
发布日期: 2025-12-25 (更新: 2025-12-30)
备注: Published as a conference paper at KDD 2026
💡 一句话要点
提出HIC-Bench,用于评估LLM幻觉的智能与缺陷,并探索其在科学创新中的作用。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 幻觉评估 智能幻觉 缺陷幻觉 创造力 科学创新 HIC-Bench 动态提示优化
📋 核心要点
- 现有幻觉检测方法侧重于事实一致性,难以兼顾科学任务的异构性和创造性与准确性的平衡。
- HIC-Bench框架将幻觉分为智能幻觉(IH)和缺陷幻觉(DH),并使用多维指标矩阵进行评估。
- 实验结果表明,智能幻觉与缺陷幻觉之间存在非线性关系,创造力和正确性可以共同优化。
📝 摘要(中文)
大型语言模型(LLM)中的幻觉通常被认为是需要最小化的错误。然而,最近的观点表明,某些幻觉可能编码了创造性的或具有认知价值的内容,但这一维度在现有文献中仍未得到充分量化。现有的幻觉检测方法主要关注事实一致性,难以处理异构的科学任务,也难以平衡创造力与准确性。为了解决这些挑战,我们提出了HIC-Bench,这是一个新颖的评估框架,将幻觉分为智能幻觉(IH)和缺陷幻觉(DH),从而能够系统地研究它们在LLM创造力中的相互作用。HIC-Bench具有三个核心特征:(1)结构化的IH/DH评估,使用多维指标矩阵,该矩阵将托兰斯创造性思维测试(TTCT)指标(原创性、可行性、价值)与幻觉特定维度(科学合理性、事实偏差)相结合;(2)跨领域适用性,涵盖十个具有开放式创新任务的科学领域;(3)动态提示优化,利用动态幻觉提示(DHP)来引导模型产生创造性和可靠的输出。评估过程采用多个LLM评判者,平均分数以减轻偏差,并由人工注释者验证IH/DH分类。实验结果揭示了IH和DH之间的非线性关系,表明创造力和正确性可以共同优化。这些见解将IH定位为创造力的催化剂,并揭示了LLM幻觉驱动科学创新的能力。此外,HIC-Bench为推进LLM幻觉的创造性智能研究提供了一个有价值的平台。
🔬 方法详解
问题定义:现有的大语言模型幻觉评估方法主要关注事实一致性,无法有效区分具有创造性和认知价值的“智能幻觉”和纯粹错误的“缺陷幻觉”。这导致无法充分理解和利用幻觉在科学创新中的潜力。现有方法难以处理不同科学领域的异构任务,并且难以在创造力和准确性之间取得平衡。
核心思路:论文的核心思路是将幻觉分为“智能幻觉”(IH)和“缺陷幻觉”(DH)两种类型,并设计一个综合性的评估框架来量化它们的特性。通过分析IH和DH之间的关系,探索如何利用幻觉来促进科学创新。该框架旨在超越简单的事实一致性检查,更深入地理解幻觉的潜在价值。
技术框架:HIC-Bench框架包含以下主要组成部分:1) 结构化的IH/DH评估:使用多维指标矩阵,结合托兰斯创造性思维测试(TTCT)的指标(原创性、可行性、价值)以及幻觉特有的维度(科学合理性、事实偏差)来评估幻觉。2) 跨领域适用性:框架涵盖十个不同的科学领域,每个领域都包含开放式的创新任务。3) 动态提示优化:使用动态幻觉提示(DHP)来引导模型生成更具创造性和可靠性的输出。评估过程涉及多个LLM评判者,通过平均分数来减少偏差,并由人工注释者验证IH/DH的分类。
关键创新:该论文的关键创新在于:1) 提出了智能幻觉(IH)和缺陷幻觉(DH)的概念,并设计了相应的评估方法。2) 构建了一个跨多个科学领域的综合性评估基准HIC-Bench。3) 引入了动态幻觉提示(DHP)来引导模型生成更具创造性和可靠性的输出。与现有方法相比,HIC-Bench更全面地评估了幻觉的特性,并探索了其在科学创新中的潜力。
关键设计:动态幻觉提示(DHP)的设计是关键。具体来说,DHP会根据模型的输出动态调整提示,以鼓励模型生成更多智能幻觉,同时减少缺陷幻觉。评估指标矩阵的设计也至关重要,它需要能够准确地量化幻觉的原创性、可行性、价值、科学合理性和事实偏差。此外,使用多个LLM评判者并平均分数,以及人工注释者的验证,可以有效减少评估偏差。
🖼️ 关键图片
📊 实验亮点
实验结果表明,智能幻觉(IH)和缺陷幻觉(DH)之间存在非线性关系,这意味着创造力和正确性可以共同优化。通过动态提示优化,可以引导模型生成更多智能幻觉,从而提高其在科学创新任务中的表现。HIC-Bench提供了一个有价值的平台,用于进一步研究LLM幻觉的创造性智能。
🎯 应用场景
该研究成果可应用于提升大语言模型在科学研究、创新设计等领域的应用能力。通过识别和利用智能幻觉,可以引导模型产生更具创造性和突破性的想法,加速科学发现和技术创新。此外,HIC-Bench作为一个评估基准,可以促进相关算法的开发和优化。
📄 摘要(原文)
Hallucinations in large language models (LLMs) are commonly regarded as errors to be minimized. However, recent perspectives suggest that some hallucinations may encode creative or epistemically valuable content, a dimension that remains underquantified in current literature. Existing hallucination detection methods primarily focus on factual consistency, struggling to handle heterogeneous scientific tasks and balance creativity with accuracy. To address these challenges, we propose HIC-Bench, a novel evaluation framework that categorizes hallucinations into Intelligent Hallucinations (IH) and Defective Hallucinations (DH), enabling systematic investigation of their interplay in LLM creativity. HIC-Bench features three core characteristics: (1) Structured IH/DH Assessment. using a multi-dimensional metric matrix integrating Torrance Tests of Creative Thinking (TTCT) metrics (Originality, Feasibility, Value) with hallucination-specific dimensions (scientific plausibility, factual deviation); (2) Cross-Domain Applicability. spanning ten scientific domains with open-ended innovation tasks; and (3) Dynamic Prompt Optimization. leveraging the Dynamic Hallucination Prompt (DHP) to guide models toward creative and reliable outputs. The evaluation process employs multiple LLM judges, averaging scores to mitigate bias, with human annotators verifying IH/DH classifications. Experimental results reveal a nonlinear relationship between IH and DH, demonstrating that creativity and correctness can be jointly optimized. These insights position IH as a catalyst for creativity and reveal the ability of LLM hallucinations to drive scientific innovation.Additionally, the HIC-Bench offers a valuable platform for advancing research into the creative intelligence of LLM hallucinations.