Aligning Large Language Model Behavior with Human Citation Preferences
作者: Kenichiro Ando, Tatsuya Harada
分类: cs.CL, cs.AI
发布日期: 2026-02-05
备注: Work In Progress
💡 一句话要点
对齐大语言模型行为与人类引文偏好,提升LLM生成内容的可信度
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 引文偏好 人类对齐 直接偏好优化 可信度 知识对齐
📋 核心要点
- 现有LLM的引文行为与人类偏好存在偏差,缺乏对引文价值的细粒度理解和控制。
- 构建数据集,将Web文本按引文动机分类,通过成对偏好评估对比人类与LLM的引文倾向。
- 实验表明,LLM在某些类型文本上过度引用,而在另一些类型上引用不足,通过直接偏好优化可以校准模型行为。
📝 摘要(中文)
为了增强可信度,构建于大型语言模型(LLM)之上的服务通常会在输出中添加引文。目前的研究主要关注于选择哪些参考文档进行链接。然而,LLM如何识别引文价值以及如何控制这一过程仍然缺乏深入研究。本研究着重于LLM当前倾向于引用哪些类型的内容,以及这种行为与人类偏好的一致性。我们构建了一个数据集,用于描述人类引文偏好与LLM行为之间的关系。Web文本被分为八种引文动机类型,并通过详尽的成对引文偏好评估来捕捉细粒度的对比。结果表明,人类最常寻求医学文本的引文,更强大的模型也表现出类似的倾向。我们还发现,当前模型比人类更有可能(高达27%)为明确标记为需要引文的文本(如维基百科)添加引文,这种过度强调降低了对齐准确性。相反,模型系统性地低估了数字语句(相对于人类低-22.6%)和包含人名的语句(低-20.1%),而人类通常要求对这些类别进行引文。此外,使用直接偏好优化进行的实验表明,可以校准模型行为以更好地匹配人类引文偏好。我们期望这项研究为更细致地研究LLM引文偏好奠定基础。
🔬 方法详解
问题定义:论文旨在解决大语言模型(LLM)的引文行为与人类引文偏好不一致的问题。现有方法缺乏对LLM引文倾向的细粒度理解和控制,导致LLM在生成内容时,可能过度引用某些类型的文本,而忽略其他需要引用的文本,从而降低了生成内容的可信度和实用性。
核心思路:论文的核心思路是通过构建一个数据集来量化人类的引文偏好,并将其与LLM的引文行为进行对比分析。然后,利用直接偏好优化(Direct Preference Optimization, DPO)方法,校准LLM的引文行为,使其更好地匹配人类的引文偏好。这样设计的目的是为了提高LLM生成内容的可信度和实用性,使其更符合人类的期望。
技术框架:论文的技术框架主要包括以下几个步骤:1) 构建数据集:从Web上收集文本数据,并将其分为八种引文动机类型。2) 标注数据:对不同类型的文本进行成对比较,标注人类的引文偏好。3) 分析LLM行为:评估LLM在不同类型文本上的引文倾向。4) 校准模型:使用DPO方法,根据人类的引文偏好校准LLM的引文行为。
关键创新:论文的关键创新在于:1) 构建了一个细粒度的引文偏好数据集,涵盖了多种引文动机类型。2) 提出了使用DPO方法校准LLM引文行为的方案,使其更好地匹配人类的偏好。3) 揭示了LLM在引文行为上与人类偏好存在的偏差,并量化了这些偏差。
关键设计:论文的关键设计包括:1) 引文动机类型的划分:将Web文本分为八种类型,包括医学文本、数字语句、人名等,以便进行细粒度的分析。2) 成对偏好评估:通过对不同类型文本进行成对比较,获取人类的引文偏好。3) DPO损失函数:使用DPO损失函数来优化LLM的引文行为,使其更符合人类的偏好。具体参数设置未知。
📊 实验亮点
实验结果表明,人类最常寻求医学文本的引文,而LLM也表现出类似的倾向。然而,LLM在某些类型文本上过度引用(如维基百科),而在另一些类型上引用不足(如数字语句和人名)。通过DPO优化,模型在引文偏好上与人类的对齐准确率得到了显著提升,具体提升幅度未知。
🎯 应用场景
该研究成果可应用于各种基于LLM的问答系统、内容生成平台和信息检索工具,提升生成内容的可信度和实用性。通过对齐LLM的引文行为与人类偏好,可以减少虚假信息的传播,提高用户对LLM生成内容的信任度,并为未来的LLM引文策略研究提供基础。
📄 摘要(原文)
Most services built on powerful large-scale language models (LLMs) add citations to their output to enhance credibility. Recent research has paid increasing attention to the question of what reference documents to link to outputs. However, how LLMs recognize cite-worthiness and how this process should be controlled remains underexplored. In this study, we focus on what kinds of content LLMs currently tend to cite and how well that behavior aligns with human preferences. We construct a dataset to characterize the relationship between human citation preferences and LLM behavior. Web-derived texts are categorized into eight citation-motivation types, and pairwise citation preferences are exhaustively evaluated across all type combinations to capture fine-grained contrasts. Our results show that humans most frequently seek citations for medical text, and stronger models display a similar tendency. We also find that current models are as much as $27\%$ more likely than humans to add citations to text that is explicitly marked as needing citations on sources such as Wikipedia, and this overemphasis reduces alignment accuracy. Conversely, models systematically underselect numeric sentences (by $-22.6\%$ relative to humans) and sentences containing personal names (by $-20.1\%$), categories for which humans typically demand citations. Furthermore, experiments with Direct Preference Optimization demonstrate that model behavior can be calibrated to better match human citation preferences. We expect this study to provide a foundation for more fine-grained investigations into LLM citation preferences.