How Much Do LLMs Know About Chinese Zero Pronouns?

📄 arXiv: 2605.31056v1 📥 PDF

作者: Yifei Li, Guanyi Chen, Tingting He

分类: cs.CL

发布日期: 2026-05-29


💡 一句话要点

系统性评估大型语言模型对中文零代词的理解能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 零代词 大型语言模型 中文自然语言处理 指代消解 机器翻译

📋 核心要点

  1. 现有大型语言模型在处理中文零代词方面能力不足,尤其是在识别和指称性分类等上游任务中表现较差。
  2. 该研究通过设计一系列语言学驱动的任务,系统性地评估了LLMs对中文零代词的理解和处理能力。
  3. 实验结果表明,即使是最先进的LLMs在零代词翻译任务中也表现不佳,正确翻译率低于50%。

📝 摘要(中文)

零代词(ZPs)是像中文这样的省略代词语言中普遍存在的语言现象,长期以来对自然语言处理系统构成了挑战。尽管大型语言模型(LLMs)在许多中文语言任务上表现良好,但它们处理零代词的能力仍然知之甚少。我们通过一系列语言学驱动的任务,对LLMs处理中文零代词的能力进行了系统性研究,包括识别、指称性分类、指称类型分类、解析和翻译。在一系列任务中评估了各种LLMs。我们的结果表明,中文零代词对当前的LLMs仍然具有很高的挑战性,特别是对于上游任务,如识别和指称性分类。下游任务(如ZP翻译)的性能也一直很低:即使是最先进的、面向推理的LLMs,也只有不到一半的中文ZPs能被正确翻译成英语。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLMs)在理解和处理中文零代词(ZPs)方面的能力不足问题。现有的LLMs在许多中文任务上表现良好,但对ZPs的理解仍然是一个挑战。现有方法缺乏对LLMs处理ZPs能力的系统性评估,并且在识别、分类和翻译ZPs方面存在局限性。

核心思路:论文的核心思路是通过设计一系列精心构建的、具有语言学动机的任务,来系统地评估LLMs对中文ZPs的理解能力。这些任务涵盖了ZPs处理的各个方面,包括识别、指称性分类、指称类型分类、解析和翻译。通过分析LLMs在这些任务上的表现,可以深入了解它们在处理ZPs方面的优势和不足。

技术框架:该研究的技术框架主要包括以下几个阶段:1)构建包含各种类型的中文ZPs的数据集;2)设计一系列评估任务,包括ZP识别、指称性分类、指称类型分类、ZP解析和ZP翻译;3)选择一系列具有代表性的LLMs进行评估;4)分析LLMs在各个任务上的表现,并进行深入的错误分析。

关键创新:该研究的关键创新在于:1)首次对LLMs处理中文ZPs的能力进行了系统性的、全面的评估;2)设计了一系列具有语言学动机的评估任务,能够更准确地反映LLMs对ZPs的理解程度;3)通过对LLMs在各个任务上的表现进行深入分析,揭示了LLMs在处理ZPs方面的优势和不足。

关键设计:论文的关键设计包括:1)任务设计:每个任务都旨在评估LLMs在处理ZPs的特定方面能力,例如识别任务评估LLMs是否能够识别句子中的ZPs,指称性分类任务评估LLMs是否能够判断ZPs是否具有指称对象;2)模型选择:选择了各种类型的LLMs,包括基于Transformer的模型、基于知识图谱的模型等,以评估不同类型的LLMs在处理ZPs方面的表现;3)评估指标:使用了准确率、召回率、F1值等指标来评估LLMs在各个任务上的表现。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,即使是最先进的、面向推理的LLMs,也只有不到一半的中文ZPs能被正确翻译成英语。在ZP识别和指称性分类等上游任务中,LLMs的性能也远低于人类水平,表明中文零代词对当前LLMs仍然是一个巨大的挑战。

🎯 应用场景

该研究成果可应用于提升机器翻译质量,特别是中英翻译中对零代词的处理。同时,可以帮助改进中文信息抽取、文本摘要等自然语言处理任务的性能。未来,该研究可以促进更智能、更自然的中文人机交互系统的开发。

📄 摘要(原文)

Zero Pronouns (ZPs) are a pervasive linguistic phenomenon in pro-drop languages such as Chinese and have long posed a challenge for natural language processing systems. Although Large Language Models (LLMs) perform well on many Chinese language tasks, their ability to process ZPs remains poorly understood. We conduct a systematic investigation of LLMs' handling of Chinese ZPs through a sequence of linguistically motivated tasks, including identification, referentiality classification, referential type classification, resolution, and translation. A diverse set of LLMs is evaluated across all tasks. Our results show that Chinese ZPs remain highly challenging for current LLMs, particularly for upstream tasks such as identification and referentiality classification. Performance on downstream tasks, such as ZP translation, is also consistently low: even state-of-the-art reasoning-oriented LLMs correctly translate fewer than half of Chinese ZPs into English.