Hypothesis-only Biases in Large Language Model-Elicited Natural Language Inference

作者: Grace Proebsting, Adam Poliak

分类: cs.CL

发布日期: 2024-10-11

💡 一句话要点

揭示大语言模型生成NLI数据中的假设偏差，强调数据质量对模型评估的重要性

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 自然语言推理 大型语言模型 标注偏差 数据生成 模型评估

📋 核心要点

现有NLI数据集可能包含标注伪影，导致模型过度依赖假设进行推理，而非真正理解前提。
该研究使用LLM生成NLI假设，并训练仅使用假设的分类器来检测LLM生成数据中的偏差。
实验表明，LLM生成的数据集仍然包含显著的假设偏差，BERT分类器在这些数据集上取得了高准确率。

📝 摘要（中文）

本文研究了使用大型语言模型（LLM）代替众包工人生成自然语言推理（NLI）假设是否会导致类似的标注伪影。我们使用GPT-4、Llama-2和Mistral 7b重建了Stanford NLI语料库的一部分，并训练了仅使用假设的分类器来确定LLM生成的假设是否包含标注伪影。在我们的LLM生成的NLI数据集上，基于BERT的仅使用假设的分类器达到了86-96%的准确率，表明这些数据集包含仅使用假设的伪影。我们还发现LLM生成的假设中存在频繁的“泄露”，例如，短语“swimming in a pool”在GPT-4生成的10,000多个矛盾中出现。我们的分析提供了经验证据，表明NLI中公认的偏差可能存在于LLM生成的数据中。

🔬 方法详解

问题定义：论文旨在研究使用大型语言模型（LLM）生成自然语言推理（NLI）数据集时，是否会引入与众包数据类似的标注偏差，特别是“仅假设偏差”。现有NLI数据集存在标注伪影，导致模型可以通过仅分析假设来预测标签，而无需真正理解前提和假设之间的关系。这使得模型评估结果可能存在偏差，无法真实反映模型的推理能力。

核心思路：核心思路是使用LLM（GPT-4、Llama-2、Mistral 7b）重新生成一部分Stanford NLI数据集的假设，然后训练一个仅使用假设的分类器。如果分类器能够仅通过分析LLM生成的假设就能高精度地预测NLI标签，则表明LLM生成的数据集中存在“仅假设偏差”。这种方法可以有效地检测LLM生成数据中是否存在与人工标注数据类似的偏差。

技术框架：整体流程包括以下几个步骤：1) 使用LLM生成NLI假设。2) 构建LLM生成的NLI数据集。3) 训练基于BERT的仅使用假设的分类器。4) 评估分类器在LLM生成的数据集上的性能。5) 分析LLM生成的假设中存在的“泄露”现象，例如特定短语与特定标签的关联。

关键创新：该研究的关键创新在于使用LLM作为数据生成器，并系统地评估LLM生成的数据中是否存在标注偏差。与以往研究主要关注人工标注数据中的偏差不同，该研究关注LLM生成数据，这对于评估和改进LLM在数据生成方面的应用具有重要意义。

关键设计：研究中使用了三种不同的LLM（GPT-4、Llama-2、Mistral 7b）来生成NLI假设，以评估不同LLM生成数据的偏差程度。分类器采用基于BERT的模型，这是一种常用的自然语言处理模型。研究还分析了LLM生成的假设中存在的“泄露”现象，例如特定短语与特定标签的关联，这有助于深入理解LLM生成数据的偏差来源。

🖼️ 关键图片

📊 实验亮点

实验结果表明，基于BERT的仅使用假设的分类器在LLM生成的NLI数据集上达到了86-96%的准确率，这表明LLM生成的数据集包含显著的仅假设偏差。研究还发现LLM生成的假设中存在频繁的“泄露”现象，例如短语“swimming in a pool”在GPT-4生成的10,000多个矛盾中出现。

🎯 应用场景

该研究成果可应用于改进NLI数据集的构建方法，提高模型评估的可靠性。通过识别和消除LLM生成数据中的偏差，可以构建更具挑战性和代表性的NLI数据集，从而更准确地评估模型的推理能力。此外，该研究也为其他自然语言处理任务的数据生成和模型评估提供了借鉴。

📄 摘要（原文）

We test whether replacing crowdsource workers with LLMs to write Natural Language Inference (NLI) hypotheses similarly results in annotation artifacts. We recreate a portion of the Stanford NLI corpus using GPT-4, Llama-2 and Mistral 7b, and train hypothesis-only classifiers to determine whether LLM-elicited hypotheses contain annotation artifacts. On our LLM-elicited NLI datasets, BERT-based hypothesis-only classifiers achieve between 86-96% accuracy, indicating these datasets contain hypothesis-only artifacts. We also find frequent "give-aways" in LLM-generated hypotheses, e.g. the phrase "swimming in a pool" appears in more than 10,000 contradictions generated by GPT-4. Our analysis provides empirical evidence that well-attested biases in NLI can persist in LLM-generated data.

Hypothesis-only Biases in Large Language Model-Elicited Natural Language Inference

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理