LaMsS: When Large Language Models Meet Self-Skepticism

📄 arXiv: 2409.06601v4 📥 PDF

作者: Yetao Wu, Yihong Wang, Teng Chen, Ningyuan Xi, Qingqing Gu, Hongyang Lei, Luo Ji

分类: cs.CL, cs.LG

发布日期: 2024-09-10 (更新: 2025-04-26)

备注: 11 pages, 6 figures, ICLR 2025 Workshop SSI-FM,


💡 一句话要点

LaMsS:结合自怀疑精神的大语言模型,缓解幻觉问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 自怀疑 幻觉缓解 可信AI 问答系统

📋 核心要点

  1. 大语言模型存在幻觉问题,限制了其在特定领域的应用,需要有效缓解。
  2. LaMsS方法的核心在于赋予LLM自怀疑能力,通过引入怀疑token进行预训练和微调。
  3. 实验表明,LaMsS在多个问答基准测试中表现优于基线,并具备良好的泛化能力。

📝 摘要(中文)

幻觉是大语言模型(LLMs)面临的主要挑战,阻碍了其在某些领域的进一步应用。人类的怀疑性思维可能有助于LLMs进行自我认知、自我反思并减轻幻觉。受此启发,我们提出了一种名为LaMsS的新方法,该方法将LLMs的语义理解能力与自怀疑精神相结合。通过引入一系列怀疑token并将其扩充到词汇表中,我们进行了预训练和微调,这使得LLM能够解码每个普通token,并在其后跟随一个表示不同怀疑程度的怀疑token。通过计算给定查询的响应怀疑程度,可以定义一种新的自我感知LLM,该LLM只愿意回答怀疑程度低于阈值的问题。通过检查自愿回答问题的准确率、AUC和AP,我们证明LaMsS在多项选择题和开放域问答基准测试中都优于基线,并且可以推广到多任务和领域外设置。我们的研究为进一步的人工智能自怀疑建模提供了一些启示。项目代码和模型检查点可在https://anonymous.4open.science/r/SM-1E76找到。

🔬 方法详解

问题定义:论文旨在解决大语言模型中普遍存在的幻觉问题。现有方法往往缺乏对自身生成内容的置信度评估,导致模型在不确定情况下仍然给出错误或不准确的答案,降低了LLM在需要高可靠性场景下的应用价值。

核心思路:论文的核心思路是赋予LLM一种“自怀疑”的能力,使其能够评估自身生成内容的置信度。通过让模型在生成每个token后,同时预测一个表示怀疑程度的token,从而使模型能够感知自身答案的可靠性,并选择性地拒绝回答高怀疑度的问题。

技术框架:LaMsS方法主要包含以下几个阶段:1) 词汇表扩充:在原有词汇表中加入一系列表示不同怀疑程度的“怀疑token”。2) 预训练:使用包含怀疑token的数据集对LLM进行预训练,使模型初步具备预测怀疑token的能力。3) 微调:在特定任务上对模型进行微调,进一步提升模型预测怀疑token的准确性。4) 推理:在推理阶段,模型在生成每个token的同时,也生成一个怀疑token。通过计算整个回答的平均怀疑程度,并与预设阈值进行比较,决定是否给出答案。

关键创新:LaMsS的关键创新在于将“自怀疑”的概念引入到LLM中,并提出了一种通过引入怀疑token来实现自怀疑的方法。与现有方法相比,LaMsS不需要额外的模型或复杂的训练流程,而是通过对现有LLM进行简单的修改和训练,即可赋予其自怀疑能力。

关键设计:关键设计包括:1) 怀疑token的选取:论文中使用了多个离散的怀疑token,每个token代表不同的怀疑程度。2) 损失函数的设计:在训练过程中,需要设计合适的损失函数来鼓励模型准确预测怀疑token。3) 阈值的设定:在推理阶段,需要设定一个合适的怀疑程度阈值,以控制模型的回答意愿。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,LaMsS在多项选择题和开放域问答基准测试中均取得了显著的性能提升。例如,在某个基准测试中,LaMsS的准确率比基线模型提高了5%以上,AUC和AP指标也得到了显著提升。此外,LaMsS还展现出了良好的泛化能力,在多任务和领域外设置中也能保持较高的性能。

🎯 应用场景

LaMsS方法可以应用于需要高可靠性的问答系统、医疗诊断辅助、金融风险评估等领域。通过赋予LLM自怀疑能力,可以有效降低模型给出错误答案的概率,提高系统的整体可靠性和安全性。未来,该方法还可以与其他技术相结合,例如知识图谱、证据检索等,进一步提升LLM的推理能力和可信度。

📄 摘要(原文)

Hallucination is a major challenge for large language models (LLMs), preventing their further application in some fields. The skeptical thinking of humankind could be useful for LLMs to self-cognition, self-reflection and alleviate their hallucinations. Inspired by this consideration, we propose a novel approach called LaMsS, which combines the semantic understanding capability of LLMs with self-skepticism. By introducing a series of skepticism tokens and augmenting them into the vocabulary, we conduct both pertaining and finetuning, which allow the LLM to decode each normal token followed by a skeptical token, representing different skepticism levels. By calculating the response skepticism given a query, one can define a new self-aware LLM which is only willing to answer with relative lower skepticism level than the threshold. By examining the accuracy, AUC and AP of willingly answering questions, we demonstrate that LaMsS achieves better performance than baselines on both multi-choice questions and open-domain question-answering benchmarks, and can generalize to multi-task and out-of-domain settings. Our study sheds some lights on the self-skepticism modeling on further artificial intelligence. Project code and model checkpoints can be found in https://anonymous.4open.science/r/SM-1E76.