NoVo: Norm Voting off Hallucinations with Attention Heads in Large Language Models

作者: Zheng Yi Ho, Siyuan Liang, Sen Zhang, Yibing Zhan, Dacheng Tao

分类: cs.CL, cs.AI

发布日期: 2024-10-11 (更新: 2024-10-29)

💡 一句话要点

提出NoVo，利用注意力头范数投票显著提升大语言模型的事实准确性

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 幻觉抑制 注意力机制 范数投票 零样本学习

📋 核心要点

现有方法依赖特定工具和领域内数据，泛化性差，难以有效减少大语言模型的幻觉问题。
NoVo利用注意力头范数，通过高效的推理算法选择与真值相关的头，并进行投票，提升准确性。
在TruthfulQA MC1上，NoVo超越SOTA至少19个点，并在20个数据集上展示了卓越的泛化能力。

📝 摘要（中文）

大语言模型（LLMs）中的幻觉仍然是一个主要障碍，尤其是在事实准确性至关重要的高风险应用中。尽管表征编辑和阅读方法在减少幻觉方面取得了进展，但它们严重依赖专用工具和领域内样本训练，使得它们难以扩展且容易过拟合，限制了它们的准确性提升和对不同数据集的泛化能力。本文提出了一种轻量级方法，即范数投票（NoVo），它利用注意力头范数的未开发潜力，以显著提高零样本多项选择题（MCQs）的事实准确性。NoVo首先使用一种高效的、仅推理的算法，仅使用30个随机样本自动选择与真值相关的头范数，从而使NoVo能够轻松扩展到不同的数据集。之后，所选的头范数被用于一个简单的投票算法中，从而显著提高预测准确性。在TruthfulQA MC1上，NoVo超越了当前最先进的方法和所有先前的方法，至少提高了19个百分点的准确率。NoVo展示了对20个不同数据集的卓越泛化能力，在超过90%的数据集中获得了显著的收益，远远超过了所有当前的表征编辑和阅读方法。NoVo还揭示了对微调策略和构建文本对抗防御的有希望的收益。NoVo在头部规范方面的有效性为LLM的可解释性、鲁棒性和可靠性开辟了新的领域。

🔬 方法详解

问题定义：大语言模型（LLMs）的幻觉问题，尤其是在需要高事实准确性的场景下，是一个重要的挑战。现有的表征编辑和阅读方法虽然尝试解决这个问题，但它们依赖于特定的工具和领域内的数据进行训练，导致泛化能力不足，容易过拟合，难以扩展到不同的数据集上。

核心思路：NoVo的核心思路是利用大语言模型中注意力头（attention head）的范数（norm）所蕴含的知识。论文假设某些注意力头的范数与事实的正确性相关联。通过选择这些与真值相关的注意力头，并利用它们的输出来进行投票，可以提高模型预测的准确性。这种方法无需额外的训练，可以在零样本（zero-shot）场景下直接应用。

技术框架：NoVo方法主要包含以下几个阶段：1. 头范数计算：计算模型中所有注意力头的范数。2. 头选择：使用少量随机样本（例如30个）和一个高效的、仅推理的算法，自动选择与真值相关的注意力头。3. 投票：使用选定的注意力头的输出，通过简单的投票算法来预测答案。

关键创新：NoVo的关键创新在于它利用了注意力头范数与事实正确性之间的潜在关联。与需要大量训练数据和特定工具的现有方法不同，NoVo只需要少量样本进行头选择，并且可以在零样本场景下工作，从而实现了更好的泛化能力和可扩展性。此外，NoVo方法非常轻量级，易于集成到现有的语言模型中。

关键设计：NoVo的关键设计包括：1. 头选择算法：具体算法细节未知，但强调了其高效性和仅推理的特性，使其能够快速地选择与真值相关的头。2. 投票算法：采用简单的投票机制，根据选定的注意力头的输出进行投票，最终确定预测结果。3. 样本数量：仅使用30个随机样本进行头选择，降低了计算成本，并提高了方法的实用性。

🖼️ 关键图片

📊 实验亮点

NoVo在TruthfulQA MC1数据集上取得了显著的成果，超越了当前最先进的方法至少19个百分点的准确率。此外，NoVo在20个不同的数据集上进行了测试，并在超过90%的数据集上获得了显著的性能提升，远超现有的表征编辑和阅读方法。这些实验结果表明，NoVo具有卓越的泛化能力和实用价值。

🎯 应用场景

NoVo方法可应用于各种需要高事实准确性的大语言模型应用场景，例如问答系统、知识图谱构建、医疗诊断辅助、金融风险评估等。该方法能够提高模型在零样本场景下的准确性，降低幻觉，增强模型的可靠性和鲁棒性，从而提升用户体验和决策质量。此外，NoVo还可以作为一种防御机制，用于抵御文本对抗攻击。

📄 摘要（原文）

Hallucinations in Large Language Models (LLMs) remain a major obstacle, particularly in high-stakes applications where factual accuracy is critical. While representation editing and reading methods have made strides in reducing hallucinations, their heavy reliance on specialised tools and training on in-domain samples, makes them difficult to scale and prone to overfitting. This limits their accuracy gains and generalizability to diverse datasets. This paper presents a lightweight method, Norm Voting (NoVo), which harnesses the untapped potential of attention head norms to dramatically enhance factual accuracy in zero-shot multiple-choice questions (MCQs). NoVo begins by automatically selecting truth-correlated head norms with an efficient, inference-only algorithm using only 30 random samples, allowing NoVo to effortlessly scale to diverse datasets. Afterwards, selected head norms are employed in a simple voting algorithm, which yields significant gains in prediction accuracy. On TruthfulQA MC1, NoVo surpasses the current state-of-the-art and all previous methods by an astounding margin -- at least 19 accuracy points. NoVo demonstrates exceptional generalization to 20 diverse datasets, with significant gains in over 90\% of them, far exceeding all current representation editing and reading methods. NoVo also reveals promising gains to finetuning strategies and building textual adversarial defence. NoVo's effectiveness with head norms opens new frontiers in LLM interpretability, robustness and reliability.

NoVo: Norm Voting off Hallucinations with Attention Heads in Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理