LLM Enhancement with Domain Expert Mental Model to Reduce LLM Hallucination with Causal Prompt Engineering
作者: Boris Kovalerchuk, Brent D. Fegley
分类: cs.AI, cs.HC
发布日期: 2025-09-13
备注: 25 pages,4 figures, 2 tables
💡 一句话要点
提出基于领域专家心智模型的因果提示工程,减少LLM幻觉
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 领域专家知识 心智模型 提示工程 因果推理 人机对话 决策支持
📋 核心要点
- 现有LLM在决策支持中存在幻觉问题,源于训练数据缺失和无法有效利用领域专家知识。
- 论文提出一种基于人机对话和单调函数的专家心智模型(EMM)构建方法,用于优化LLM提示工程。
- 该方法通过结构化领域知识,生成更有效的提示,旨在减少LLM在决策任务中的幻觉。
📝 摘要(中文)
各种学科和领域都存在困难的决策问题。生成技术,特别是大型语言模型(LLM)的普及,激发了人们使用它们进行决策支持的兴趣。然而,LLM无法解决训练数据中的缺失问题,导致幻觉。检索增强生成(RAG)通过整合外部信息检索来增强LLM,减少幻觉并提高准确性。然而,RAG和相关方法只是部分解决方案,因为它们可能无法访问所有必要的来源或关键的缺失信息。即使是日常问题也常常挑战LLM的能力。提交包含上下文和示例的更长提示是解决知识差距的一种方法,但设计有效的提示并非易事,并且可能无法捕捉领域专家的复杂心智模型。对于缺少关键信息的任务,LLM是不够的,许多现有系统在可用文档中的表示也很差。本文探讨了LLM如何使决策更有效率,使用评估是否回复征集建议书的运行示例。我们提出了一种基于优化人机对话以及单调布尔和k值函数的技术,以发现计算上易于处理的个人专家心智模型(EMM)用于决策。我们的LLM提示工程EMM算法包含四个步骤:(1)因素识别,(2)因素的层次结构化,(3)生成广义专家心智模型规范,以及(4)从该规范生成详细的广义专家心智模型。
🔬 方法详解
问题定义:LLM在决策支持中面临幻觉问题,尤其是在信息不完整或需要领域专家知识的情况下。现有方法,如RAG,无法完全解决知识缺失问题,而直接使用LLM又容易产生不准确的输出。设计有效的提示来弥补LLM的知识差距是一个挑战,尤其是在需要捕捉复杂领域专家心智模型时。
核心思路:论文的核心思路是构建一个领域专家的心智模型(EMM),并利用这个模型来指导LLM的提示工程。通过结构化地表示专家的知识和决策过程,可以生成更有效、更准确的提示,从而减少LLM的幻觉。这种方法的核心在于将专家的隐性知识显性化,并将其融入到LLM的推理过程中。
技术框架:该方法包含四个主要步骤:(1) 因素识别:确定影响决策的关键因素。(2) 因素的层次结构化:将因素组织成一个层次结构,反映它们之间的关系。(3) 生成广义专家心智模型规范:基于因素层次结构,生成一个描述专家决策逻辑的规范。(4) 生成详细的广义专家心智模型:将规范转化为一个可计算的模型,用于指导LLM的提示工程。整个流程通过人机对话来收集和提炼专家的知识。
关键创新:该方法最重要的创新点在于将领域专家的心智模型显式地融入到LLM的提示工程中。与传统的提示工程方法相比,该方法不仅仅依赖于人工设计的提示,而是通过结构化的知识表示来指导提示的生成,从而提高了提示的有效性和准确性。此外,该方法还利用人机对话来获取和提炼专家的知识,从而避免了知识获取的瓶颈。
关键设计:该方法使用单调布尔和k值函数来表示专家心智模型。因素的层次结构化可以通过多种方法实现,例如使用领域本体或知识图谱。人机对话的设计需要考虑如何有效地引导专家表达他们的知识和决策过程。具体的参数设置和损失函数(如果适用)取决于具体的应用场景和数据集。
📊 实验亮点
论文通过一个评估是否回复征集建议书的案例研究,展示了该方法的有效性。虽然具体的性能数据未提供,但该案例表明,通过构建专家心智模型并将其用于提示工程,可以显著提高LLM在决策任务中的表现,并减少幻觉。
🎯 应用场景
该研究成果可应用于各种需要复杂决策支持的领域,例如医疗诊断、金融风险评估、工程设计等。通过将领域专家的知识融入LLM,可以提高决策的准确性和效率,并减少人为错误。未来,该方法可以扩展到更复杂的领域,并与其他知识表示和推理技术相结合,以实现更智能的决策支持系统。
📄 摘要(原文)
Difficult decision-making problems abound in various disciplines and domains. The proliferation of generative techniques, especially large language models (LLMs), has excited interest in using them for decision support. However, LLMs cannot yet resolve missingness in their training data, leading to hallucinations. Retrieval-Augmented Generation (RAG) enhances LLMs by incorporating external information retrieval, reducing hallucinations and improving accuracy. Yet, RAG and related methods are only partial solutions, as they may lack access to all necessary sources or key missing information. Even everyday issues often challenge LLMs' abilities. Submitting longer prompts with context and examples is one approach to address knowledge gaps, but designing effective prompts is non-trivial and may not capture complex mental models of domain experts. For tasks with missing critical information, LLMs are insufficient, as are many existing systems poorly represented in available documents. This paper explores how LLMs can make decision-making more efficient, using a running example of evaluating whether to respond to a call for proposals. We propose a technology based on optimized human-machine dialogue and monotone Boolean and k-valued functions to discover a computationally tractable personal expert mental model (EMM) of decision-making. Our EMM algorithm for LLM prompt engineering has four steps: (1) factor identification, (2) hierarchical structuring of factors, (3) generating a generalized expert mental model specification, and (4) generating a detailed generalized expert mental model from that specification.