Epistemic Diversity and Knowledge Collapse in Large Language Models
作者: Dustin Wright, Sarah Masud, Jared Moore, Srishti Yadav, Maria Antoniak, Peter Ebert Christensen, Chan Young Park, Isabelle Augenstein
分类: cs.CL, cs.AI, cs.CY, cs.IR, cs.LG
发布日期: 2025-10-05 (更新: 2026-01-28)
备注: 16 pages; 8 figures, 4 tables; v2 changelog: Fixed the modeling for table 3, random effect is the model version; v3 changelog: Fixed minor formatting issues in tables 2 and 3; v4 changelog: Fixed some typos and model description; v5 changelog: Updated metadata; v6 changelog: Improved search baseline, writing revisions, added comparisons to semantic similarity only approaches
💡 一句话要点
提出衡量LLM知识多样性的方法,揭示其知识塌缩风险及影响因素。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 知识多样性 认知多样性 知识塌缩 检索增强生成
📋 核心要点
- 现有LLM生成内容同质化,可能导致知识塌缩,限制用户获取多样化信息。
- 提出认知多样性度量方法,评估LLM输出中真实世界声明的变化程度。
- 实验表明,LLM认知多样性低于网络搜索,模型大小负相关,RAG有积极影响。
📝 摘要(中文)
大型语言模型(LLM)倾向于生成同质化的文本,这可能会影响不同输出中知识的多样性。鉴于LLM有可能取代现有的知识获取方式,这带来了知识塌缩的风险,即同质化的LLM可能导致大多数人接触到大致相同的信息,从而随着未被充分代表的知识被遗忘,可访问信息的范围逐渐缩小。为了评估LLM的知识塌缩风险,我们提出了一种新的方法来衡量认知多样性,即LLM输出中真实世界声明的变化。我们使用该方法对27个LLM、涵盖12个国家的155个主题以及来自真实用户聊天的200个提示模板进行了广泛的实证研究。对于我们研究中的主题,我们表明,虽然较新的模型倾向于生成更多样化的声明,但所有模型的认知多样性都低于基本的网络搜索。我们发现模型大小对认知多样性有负面影响,而检索增强生成(RAG)有正面影响,但RAG的改进程度因文化背景而异。最后,与传统的知识来源(维基百科)相比,我们发现特定国家的声明更多地反映了英语,而不是当地语言,突出了认知表征方面的差距。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)生成内容同质化的问题,这种同质化可能导致“知识塌缩”,即用户接触到的信息范围缩小,从而限制了知识的传播和创新。现有方法难以有效衡量LLM输出的知识多样性,无法准确评估其潜在的知识塌缩风险。
核心思路:论文的核心思路是提出一种新的度量方法——“认知多样性”,用于量化LLM输出中真实世界声明的变化程度。通过分析LLM针对同一主题生成不同输出时,所包含的事实性声明的差异,来评估其知识多样性。这种方法能够更直接地反映LLM在知识层面上的覆盖范围和广度。
技术框架:论文构建了一个包含以下主要步骤的评估框架: 1. 主题选择:选取涵盖多个国家和文化背景的155个主题。 2. 提示工程:使用来自真实用户聊天的200个提示模板,确保评估的实用性。 3. LLM生成:利用27个不同的LLM,针对每个主题和提示生成多个输出。 4. 声明提取:从LLM的输出中提取出可验证的真实世界声明。 5. 认知多样性计算:基于提取的声明,计算不同输出之间的差异,从而得到认知多样性得分。 6. 对比分析:将LLM的认知多样性与网络搜索和维基百科等传统知识来源进行对比。
关键创新:论文的关键创新在于提出了“认知多样性”这一概念,并将其转化为可量化的指标。与以往侧重于文本相似度的评估方法不同,认知多样性更关注LLM输出中包含的实际知识的差异,从而更准确地反映其知识覆盖范围。此外,论文还构建了一个大规模的实验数据集,涵盖多个LLM、主题和提示,为全面评估LLM的知识多样性提供了基础。
关键设计:论文在认知多样性的计算中,可能采用了以下关键设计: 1. 声明提取方法:使用自然语言处理技术,自动从LLM输出中提取出事实性声明,例如命名实体识别、关系抽取等。 2. 声明匹配方法:设计算法来判断不同输出中的声明是否相同或相似,例如基于语义相似度的匹配。 3. 多样性指标:选择合适的多样性指标来量化声明之间的差异,例如Jaccard系数、余弦相似度等。 4. RAG集成:研究RAG对认知多样性的影响,可能涉及到不同的检索策略和知识库选择。
🖼️ 关键图片
📊 实验亮点
实验结果表明,虽然较新的模型倾向于生成更多样化的声明,但所有模型的认知多样性都低于基本的网络搜索。模型大小对认知多样性有负面影响,而检索增强生成(RAG)有正面影响,但RAG的改进程度因文化背景而异。与维基百科相比,特定国家的声明更多地反映了英语,而不是当地语言。
🎯 应用场景
该研究成果可应用于评估和改进LLM的知识覆盖范围,降低知识塌缩风险。可用于教育、信息检索、内容创作等领域,帮助用户获取更全面、多样化的信息。未来可用于开发更智能、更具创造力的AI系统,促进知识的传播和创新。
📄 摘要(原文)
Large language models (LLMs) tend to generate homogenous texts, which may impact the diversity of knowledge generated across different outputs. Given their potential to replace existing forms of knowledge acquisition, this poses a risk of knowledge collapse, where homogenous LLMs may lead most people to be exposed to largely the same information, thus mediating a shrinking in the range of accessible information over time as underepresented knowledge is forgotten. To assess the risk of knowledge collapse with LLMs, we present a new methodology to measure epistemic diversity, i.e., variation in real-world claims in LLM outputs. We use this to perform a broad empirical study testing 27 LLMs, 155 topics covering 12 countries, and 200 prompt templates sourced from real user chats. For the topics in our study, we show that while newer models tend to generate more diverse claims, all models are less epistemically diverse than a basic web search. We find that model size has a negative impact on epistemic diversity, while retrieval-augmented generation (RAG) has a positive impact, though the improvement from RAG varies by the cultural context. Finally, compared to a traditional knowledge source (Wikipedia), we find that country-specific claims reflect the English language more than the local one, highlighting a gap in epistemic representation.