Formality is Favored: Unraveling the Learning Preferences of Large Language Models on Data with Conflicting Knowledge
作者: Jiahuan Li, Yiqing Cao, Shujian Huang, Jiajun Chen
分类: cs.CL
发布日期: 2024-10-07
备注: accepted by EMNLP 2024, main conference
💡 一句话要点
揭示大语言模型在冲突知识数据上的学习偏好:偏向形式化文本
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 知识冲突 学习偏好 形式化文本 数据质量
📋 核心要点
- 大型语言模型面临预训练数据中存在的误导性和冲突性知识的挑战。
- 该研究揭示LLMs偏好形式化和少拼写错误的文本,从而更快学习和更优待处理相关知识。
- 实验表明,LLMs倾向于信任与大多数数据一致的数据,且偏好可被塑造。
📝 摘要(中文)
大型语言模型(LLMs)在海量预训练数据上训练,在许多知识密集型任务中表现出色。然而,预训练数据往往包含误导甚至冲突的信息,因此理解LLMs在训练过程中如何处理这些噪声数据非常重要。本研究系统地分析了LLMs在面对包含冲突知识的数据时的学习偏好。我们发现,预训练的LLMs会建立类似于人类的学习偏好,即偏向于形式化文本和拼写错误较少的文本,从而在面对冲突时,对具有这些特征的数据中的知识进行更快的学习和更优待的处理。这一发现具有跨模型和跨语言的通用性,并且在更大的模型中更为明显。深入分析表明,LLMs倾向于信任那些与大多数数据具有一致性的数据,并且可以通过操纵与大多数数据的一致性程度来灌输新的偏好并消除旧的偏好。
🔬 方法详解
问题定义:论文旨在研究大型语言模型(LLMs)在面对包含冲突知识的数据时,其学习偏好是什么。现有方法缺乏对LLMs如何处理和选择冲突知识的深入理解,导致模型可能学习到错误的知识或产生不一致的输出。
核心思路:论文的核心思路是,通过系统地分析LLMs在不同形式和质量的数据上的学习表现,来揭示其内在的学习偏好。作者假设LLMs会像人类一样,对某些类型的数据(例如,更正式、更少错误的文本)赋予更高的权重。
技术框架:该研究主要通过构建包含冲突知识的数据集,并观察LLMs在这些数据集上的学习行为来进行分析。具体流程包括:1) 构建包含冲突知识的数据集,其中包含不同形式(例如,正式与非正式)和质量(例如,拼写错误数量)的文本;2) 使用这些数据集训练或微调LLMs;3) 分析LLMs在不同数据上的学习速度、准确率和一致性,从而推断其学习偏好。
关键创新:该研究最重要的创新点在于,它揭示了LLMs在面对冲突知识时,存在类似于人类的学习偏好,即偏向于形式化和高质量的文本。这一发现挑战了以往认为LLMs是“黑盒”的观点,为理解LLMs的学习机制提供了新的视角。
关键设计:论文的关键设计包括:1) 精心设计的数据集,确保包含足够多的冲突知识,并且在形式和质量上存在显著差异;2) 使用多种LLMs进行实验,以验证结果的通用性;3) 采用多种评估指标,包括学习速度、准确率和一致性,以全面评估LLMs的学习表现。
🖼️ 关键图片
📊 实验亮点
实验结果表明,LLMs在面对冲突知识时,更倾向于学习和信任形式化程度更高、拼写错误更少的文本。例如,在包含相同知识但形式不同的文本上进行训练时,LLMs在形式化文本上的学习速度更快,准确率更高。此外,更大的模型表现出更强的偏好性。
🎯 应用场景
该研究成果可应用于提升LLMs的知识学习和推理能力,例如,在数据清洗和增强过程中,优先选择和生成更正式、更准确的文本,以提高LLMs的学习效率和知识质量。此外,该研究还可以帮助我们更好地理解LLMs的内在机制,为开发更可控、更可靠的LLMs提供指导。
📄 摘要(原文)
Having been trained on massive pretraining data, large language models have shown excellent performance on many knowledge-intensive tasks. However, pretraining data tends to contain misleading and even conflicting information, and it is intriguing to understand how LLMs handle these noisy data during training. In this study, we systematically analyze LLMs' learning preferences for data with conflicting knowledge. We find that pretrained LLMs establish learning preferences similar to humans, i.e., preferences towards formal texts and texts with fewer spelling errors, resulting in faster learning and more favorable treatment of knowledge in data with such features when facing conflicts. This finding is generalizable across models and languages and is more evident in larger models. An in-depth analysis reveals that LLMs tend to trust data with features that signify consistency with the majority of data, and it is possible to instill new preferences and erase old ones by manipulating the degree of consistency with the majority data.