Evaluating Chinese Ambiguity Understanding in Large Language Models
作者: Junwen Mo, Yuanzhi Lu, Yifang Xue, Ke Xu, Hideki Nakayama
分类: cs.CL
发布日期: 2026-05-15
💡 一句话要点
提出CHA-Gen数据集,评估大语言模型对中文歧义的理解能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 中文歧义理解 大语言模型 CHA-Gen数据集 潜在歧义理论 语义熵 CoT提示 歧义检测
📋 核心要点
- 现有中文歧义数据集可扩展性差,难以有效评估大语言模型对中文歧义的理解。
- 论文提出基于潜在歧义理论的半自动构建流程,创建了大规模中文歧义数据集CHA-Gen。
- 实验表明,大语言模型在歧义检测方面存在困难,并揭示了模型推理的几种失败模式。
📝 摘要(中文)
语言歧义对于大语言模型(LLMs)的鲁棒性至关重要,但现有研究主要集中在英语上,对中文的关注有限。现有的中文歧义数据集(例如,CHAmbi)缺乏良好的可扩展性。在潜在歧义(PA)理论的指导下,我们设计了一个半自动化的流程来构建CHA-Gen。它是第一个基于PA理论的中文歧义数据集,包含5,712个句子(2,414个有歧义,3,298个无歧义),涵盖18种潜在的歧义结构。通过直接查询和机器翻译评估LLMs(例如,Gemma 3,Qwen 2.5/3系列),我们发现LLMs在歧义检测方面存在困难(可以通过CoT提示改进)。对Qwen3-32B的CoT推理过程的分析揭示了三种常见的失败模式:歧义盲视、错误归因和过早解决。使用语义熵度量的不确定性量化表明,有歧义的句子具有更高的不确定性。此外,指令微调会诱导过度自信,而基础模型更好地捕捉语义多样性。我们进一步观察到,模型表现出对主要解释的偏见。我们的工作为中文歧义语料库提供了一种可扩展的方法,并深入了解了LLMs的歧义处理能力,为加强LLMs中的中文歧义研究奠定了基础。
🔬 方法详解
问题定义:论文旨在解决大语言模型在理解和处理中文歧义方面的不足。现有中文歧义数据集规模小、可扩展性差,无法充分评估LLM的歧义理解能力。现有方法缺乏对LLM处理歧义的深入分析,难以指导模型改进。
核心思路:论文的核心思路是基于潜在歧义(PA)理论,构建一个大规模、高质量的中文歧义数据集CHA-Gen,并利用该数据集对LLM进行系统评估。通过分析LLM在歧义处理中的表现,揭示其弱点和不足,为改进LLM的歧义理解能力提供指导。
技术框架:论文的技术框架主要包括以下几个阶段:1) 基于潜在歧义理论,定义歧义类型;2) 设计半自动化的数据生成流程,构建CHA-Gen数据集;3) 选择主流LLM(如Gemma 3, Qwen 2.5/3系列)进行评估;4) 分析LLM的推理过程,识别失败模式;5) 使用语义熵等指标量化模型的不确定性。
关键创新:论文的关键创新在于:1) 提出了基于潜在歧义理论的中文歧义数据集构建方法,解决了现有数据集规模小、可扩展性差的问题;2) 对LLM在中文歧义处理中的表现进行了深入分析,揭示了模型存在的歧义盲视、错误归因和过早解决等问题;3) 使用语义熵等指标量化了模型在处理歧义时的不确定性。
关键设计:CHA-Gen数据集包含18种潜在的歧义结构,共5,712个句子(2,414个有歧义,3,298个无歧义)。评估方法包括直接查询和机器翻译。使用CoT (Chain-of-Thought) 提示来提高模型的歧义检测能力。使用语义熵来量化模型的不确定性。对Qwen3-32B的CoT推理过程进行分析,识别失败模式。
🖼️ 关键图片
📊 实验亮点
实验结果表明,LLM在歧义检测方面存在困难,但可以通过CoT提示得到改善。对Qwen3-32B的CoT推理过程分析揭示了三种常见的失败模式:歧义盲视、错误归因和过早解决。语义熵度量显示,有歧义的句子具有更高的不确定性。指令微调会诱导过度自信,而基础模型更好地捕捉语义多样性。模型表现出对主要解释的偏见。
🎯 应用场景
该研究成果可应用于提升大语言模型在中文自然语言处理任务中的鲁棒性和准确性,例如机器翻译、文本摘要、问答系统等。通过提高模型对歧义的理解能力,可以减少误解和错误,提升用户体验。未来可进一步研究如何利用CHA-Gen数据集来训练更强大的中文歧义理解模型。
📄 摘要(原文)
Linguistic ambiguity is critical to the robustness of Large Language Models (LLMs), yet existing research focuses mostly on English, with limited attention devoted to Chinese. Existing Chinese ambiguity datasets (e.g., CHAmbi) suffer from poor scalability. Guided by Potential Ambiguity (PA) Theory, we design a semi-automatic pipeline to construct CHA-Gen. It is the first PA Theory-grounded Chinese ambiguity dataset, which comprises 5,712 sentences (2,414 ambiguous, 3,298 unambiguous) across 18 potential ambiguous structures. Evaluating LLMs (e.g. Gemma 3, Qwen 2.5/3 series) via direct querying and machine translation, we find that LLMs struggle with ambiguity detection (improved by CoT prompting). Analysis of Qwen3-32B's CoT rationales reveals three common failure modes: ambiguity blindness, misattribution, and premature resolution. Uncertainty quantification with semantic entropy metric shows higher uncertainty for ambiguous sentences. Moreover, instruction tuning induces overconfidence, whereas Base models better capture semantic diversity. We further observe that models exhibit a bias toward dominant interpretations. Our work provides a scalable approach for Chinese ambiguity corpus and insights into LLMs' ambiguity handling, laying a foundation for enhancing Chinese ambiguity research in LLMs.