Simplifications are Absolutists: How Simplified Language Reduces Word Sense Awareness in LLM-Generated Definitions

📄 arXiv: 2507.11981v1 📥 PDF

作者: Lukas Ellinger, Miriam Anschütz, Georg Groh

分类: cs.CL

发布日期: 2025-07-16

备注: Accepted by RANLP 2025


💡 一句话要点

简化语言降低LLM生成定义中词义辨析能力,DPO微调可显著改善

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 同形异义词 语言简化 定义生成 直接偏好优化

📋 核心要点

  1. 现有LLM在简化语言定义时,容易忽略同形异义词的不同含义,导致信息丢失和潜在的误导。
  2. 论文核心思想是研究简化语言对LLM生成同形异义词定义的影响,并探索提升定义完整性的方法。
  3. 实验表明,简化显著降低定义完整性,而使用DPO微调Llama 3.1 8B能有效改善同形异义词的响应质量。

📝 摘要(中文)

大型语言模型(LLMs)能够为任何语境提供准确的单词定义和解释。然而,针对不同目标群体(如儿童或语言学习者),定义的范围会发生变化。这对于同形异义词(具有多种含义的词)尤其重要,过度简化可能会因忽略关键含义而导致信息丢失,从而误导信任LLM输出的用户。本文研究了简化如何影响针对三个目标群体(Normal、Simple和ELI5)的同形异义词定义质量。通过使用两个新的多语言评估数据集,我们测试了DeepSeek v3、Llama 4 Maverick、Qwen3-30B A3B、GPT-4o mini和Llama 3.1 8B。实验采用LLM-as-Judge和人工标注两种方式。结果表明,简化会因忽略多义性而大幅降低定义的完整性,增加误解的风险。使用直接偏好优化(Direct Preference Optimization)对Llama 3.1 8B进行微调,可显著提高所有提示类型下的同形异义词响应质量。这些发现强调了在教育NLP中平衡简单性和完整性的必要性,以确保为所有学习者提供可靠的、上下文感知的定义。

🔬 方法详解

问题定义:论文旨在解决大型语言模型在生成针对不同目标群体(特别是儿童和语言学习者)的单词定义时,由于过度简化而忽略同形异义词的不同含义,导致定义不完整甚至产生误导的问题。现有方法在简化语言的过程中,往往没有充分考虑词语的多义性,使得生成的定义过于片面,无法满足用户的实际需求。

核心思路:论文的核心思路是量化简化语言对LLM生成同形异义词定义质量的影响,并提出通过直接偏好优化(DPO)微调LLM来提升其在简化语言场景下的定义能力。通过对比不同简化程度的定义,分析LLM对词语多义性的把握程度,并利用DPO算法引导LLM生成更全面、更准确的定义。

技术框架:论文的技术框架主要包括以下几个部分:1) 构建多语言评估数据集,涵盖不同简化程度(Normal、Simple、ELI5)的同形异义词定义;2) 使用LLM-as-Judge和人工标注两种方式评估不同LLM(DeepSeek v3、Llama 4 Maverick、Qwen3-30B A3B、GPT-4o mini和Llama 3.1 8B)在不同简化程度下的定义质量;3) 使用DPO算法对Llama 3.1 8B进行微调,以提升其在简化语言场景下的定义能力;4) 对比微调前后LLM的定义质量,验证DPO算法的有效性。

关键创新:论文的关键创新点在于:1) 提出了简化语言对LLM生成同形异义词定义质量的负面影响,并进行了量化分析;2) 验证了DPO算法在提升LLM在简化语言场景下的定义能力方面的有效性。与现有方法相比,该研究更关注简化语言对定义完整性的影响,并提出了针对性的解决方案。

关键设计:论文的关键设计包括:1) 构建了包含多种语言和不同简化程度的同形异义词定义数据集,为评估LLM的定义能力提供了可靠的基础;2) 采用了LLM-as-Judge和人工标注相结合的评估方式,保证了评估结果的客观性和准确性;3) 使用DPO算法对Llama 3.1 8B进行微调,通过优化LLM的偏好,使其能够生成更符合用户需求的定义。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,简化语言会显著降低LLM生成定义的完整性,忽略多义性。具体而言,在不同简化程度的提示下,LLM生成的定义质量存在明显差异。通过使用DPO算法对Llama 3.1 8B进行微调,同形异义词的响应质量在所有提示类型下都得到了显著提高。这些结果验证了DPO算法在提升LLM在简化语言场景下的定义能力方面的有效性。

🎯 应用场景

该研究成果可应用于教育领域,提升语言学习工具和平台的质量,为不同年龄段和语言水平的学习者提供更准确、更全面的单词定义和解释。此外,该研究还可以应用于智能助手、机器翻译等领域,提高LLM在处理多义词时的准确性和可靠性,避免因信息丢失或误解而导致的问题。未来,该研究可以进一步扩展到其他类型的语言简化场景,例如法律文本、医学报告等。

📄 摘要(原文)

Large Language Models (LLMs) can provide accurate word definitions and explanations for any context. However, the scope of the definition changes for different target groups, like children or language learners. This is especially relevant for homonyms, words with multiple meanings, where oversimplification might risk information loss by omitting key senses, potentially misleading users who trust LLM outputs. We investigate how simplification impacts homonym definition quality across three target groups: Normal, Simple, and ELI5. Using two novel evaluation datasets spanning multiple languages, we test DeepSeek v3, Llama 4 Maverick, Qwen3-30B A3B, GPT-4o mini, and Llama 3.1 8B via LLM-as-Judge and human annotations. Our results show that simplification drastically degrades definition completeness by neglecting polysemy, increasing the risk of misunderstanding. Fine-tuning Llama 3.1 8B with Direct Preference Optimization substantially improves homonym response quality across all prompt types. These findings highlight the need to balance simplicity and completeness in educational NLP to ensure reliable, context-aware definitions for all learners.