Toward Epistemic Stability: Engineering Consistent Procedures for Industrial LLM Hallucination Reduction
作者: Brian Freeman, Adam Kicklighter, Matt Erdman, Zach Gordon
分类: cs.SE, cs.AI, cs.HC
发布日期: 2026-04-07
💡 一句话要点
提出五种Prompt工程策略,提升工业场景LLM输出的稳定性和可靠性,减少幻觉。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 幻觉减少 Prompt工程 工业应用 知识图谱
📋 核心要点
- 大型语言模型在工业应用中面临幻觉问题,导致输出结果的事实错误或不一致,严重影响了其可靠性。
- 论文提出五种Prompt工程策略,旨在通过优化Prompt设计,减少LLM输出的方差,提高结果的可重复性和准确性。
- 实验结果表明,增强数据注册表(M4)策略表现最佳,其他策略如单任务代理专业化(M3)和领域词汇表注入(M5)也取得了显著效果。
📝 摘要(中文)
大型语言模型(LLM)中的幻觉是指在语法上连贯但事实不正确或上下文不一致的输出。这些幻觉是在工程设计、企业资源规划和物联网遥测平台等高风险工业环境中持续存在的障碍。本文提出并比较了五种旨在减少模型输出差异,并朝着可重复、有根据的结果迈进的Prompt工程策略,而无需修改模型权重或创建复杂的验证模型。这些方法包括:(M1)迭代相似性收敛,(M2)分解式模型无关Prompt,(M3)单任务代理专业化,(M4)增强数据注册表,以及(M5)领域词汇表注入。每种方法都使用LLM-as-Judge框架,在每次方法重复运行100次(相同的固定任务Prompt,tau = 0.7的随机解码)的情况下,针对内部基线进行评估。在此评估设置下,M4(增强数据注册表)在所有100次试验中均获得“更好”的评价;M3和M5分别达到80%和77%;M1达到75%;与使用现代基础模型的单次Prompt相比,M2的净值为负34%。然后,我们开发了增强的v2版本实现,并在10次试验的验证批次中对其进行了评估;M2从34%恢复到80%,是四个修订方法中增幅最大的。我们讨论了这些策略如何帮助克服工业程序中LLM结果的非确定性,即使无法保证绝对正确性。我们提供伪代码、逐字Prompt和批处理日志以支持独立评估。
🔬 方法详解
问题定义:论文旨在解决工业场景下大型语言模型(LLM)的幻觉问题,即LLM生成语法正确但事实错误的或与上下文不一致的内容。现有方法通常依赖于模型微调或复杂的验证模型,成本较高且难以部署。
核心思路:论文的核心思路是通过Prompt工程,在不修改模型权重的前提下,优化LLM的输入,从而引导模型生成更准确、更可靠的输出。通过精心设计的Prompt,可以约束模型的生成空间,减少随机性和不确定性。
技术框架:论文提出了五种Prompt工程策略:(1) 迭代相似性收敛 (Iterative Similarity Convergence),(2) 分解式模型无关Prompt (Decomposed Model-Agnostic Prompting),(3) 单任务代理专业化 (Single-Task Agent Specialization),(4) 增强数据注册表 (Enhanced Data Registry),(5) 领域词汇表注入 (Domain Glossary Injection)。每种方法都通过LLM-as-Judge框架进行评估,并与内部基线进行比较。
关键创新:论文的关键创新在于探索了多种Prompt工程策略,并系统地评估了它们在减少LLM幻觉方面的效果。与传统的模型微调方法相比,Prompt工程具有成本更低、部署更灵活的优势。此外,论文还强调了Prompt工程在提高LLM输出稳定性和可重复性方面的重要性。
关键设计:论文提供了每种Prompt工程策略的详细描述,包括伪代码、逐字Prompt和批处理日志。例如,增强数据注册表(M4)策略通过提供更全面、更准确的数据信息来引导LLM生成更可靠的答案。分解式模型无关Prompt (M2) 将复杂任务分解为更小的子任务,并为每个子任务设计特定的Prompt。论文还对每种策略的关键参数进行了调整和优化,以获得最佳性能。
🖼️ 关键图片
📊 实验亮点
实验结果表明,增强数据注册表(M4)策略在所有100次试验中均获得“更好”的评价,显著优于基线方法。单任务代理专业化(M3)和领域词汇表注入(M5)策略也分别达到了80%和77%的“更好”评价。经过改进的v2版本中,分解式模型无关Prompt(M2)的性能提升最为显著,从34%提升至80%。这些结果表明,Prompt工程是减少LLM幻觉的有效手段。
🎯 应用场景
该研究成果可广泛应用于需要高可靠性的工业领域,如工程设计、企业资源规划、物联网遥测平台等。通过减少LLM的幻觉,可以提高自动化决策的准确性和效率,降低风险,并为用户提供更值得信赖的信息服务。未来,这些Prompt工程策略可以进一步推广到其他领域,提升LLM在各种实际应用中的表现。
📄 摘要(原文)
Hallucinations in large language models (LLMs) are outputs that are syntactically coherent but factually incorrect or contextually inconsistent. They are persistent obstacles in high-stakes industrial settings such as engineering design, enterprise resource planning, and IoT telemetry platforms. We present and compare five prompt engineering strategies intended to reduce the variance of model outputs and move toward repeatable, grounded results without modifying model weights or creating complex validation models. These methods include: (M1) Iterative Similarity Convergence, (M2) Decomposed Model-Agnostic Prompting, (M3) Single-Task Agent Specialization, (M4) Enhanced Data Registry, and (M5) Domain Glossary Injection. Each method is evaluated against an internal baseline using an LLM-as-Judge framework over 100 repeated runs per method (same fixed task prompt, stochastic decoding at tau = 0.7. Under this evaluation setup, M4 (Enhanced Data Registry) received ``Better'' verdicts in all 100 trials; M3 and M5 reached 80% and 77% respectively; M1 reached 75%; and M2 was net negative at 34% when compared to single shot prompting with a modern foundation model. We then developed enhanced version 2 (v2) implementations and assessed them on a 10-trial verification batch; M2 recovered from 34% to 80%, the largest gain among the four revised methods. We discuss how these strategies help overcome the non-deterministic nature of LLM results for industrial procedures, even when absolute correctness cannot be guaranteed. We provide pseudocode, verbatim prompts, and batch logs to support independent assessment.