Current LLMs still cannot 'talk much' about grammar modules: Evidence from syntax

作者: Mohammed Q. Shormani

分类: cs.CL

发布日期: 2026-03-20

备注: 15 pages

💡 一句话要点

评估大型语言模型在语法模块理解上的能力：以ChatGPT阿拉伯语翻译为例

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 语法分析 机器翻译 阿拉伯语 ChatGPT 自然语言处理 语言学

📋 核心要点

现有大型语言模型在处理复杂语法概念时存在理解不足的问题，尤其是在跨语言翻译中。
该研究通过分析ChatGPT对语法术语的翻译质量，评估其对语法模块的理解能力。
实验结果表明，ChatGPT在语法术语翻译方面表现不佳，需要AI专家和语言学家合作改进。

📝 摘要（中文）

本文旨在研究大型语言模型（LLMs）在多大程度上能够“谈论”语法模块，并提供了ChatGPT将生成语法中的核心属性翻译成阿拉伯语的证据。我们从生成语法的先前著作（包括书籍和期刊文章）以及我们在该领域的经验中收集了44个术语。这些术语首先由人工翻译，然后由ChatGPT-5翻译。随后，我们分析并比较了两种翻译。我们的分析采用了分析和比较的方法。研究结果表明，LLMs仍然不能很好地“谈论”嵌入在所研究术语中的核心语法属性，这些术语涉及多个句法和语义挑战：只有25%的ChatGPT翻译是准确的，而38.6%是不准确的，36.4%是部分正确的，我们认为这是合适的。基于这些发现，我们提出了一系列可操作的策略，其中最值得注意的是人工智能专家和语言学家之间的密切合作，以改善LLMs的工作机制，从而实现准确或至少适当的翻译。

🔬 方法详解

问题定义：论文旨在评估大型语言模型（LLMs）在理解和翻译语法概念方面的能力。现有LLMs在处理涉及复杂句法和语义的专业术语时，常常表现出不足，尤其是在跨语言翻译的场景下。这限制了LLMs在语言学研究和相关应用中的可靠性。

核心思路：论文的核心思路是通过分析LLMs对特定领域（生成语法）术语的翻译质量，来间接评估其对该领域知识的理解程度。如果LLMs能够准确地翻译这些术语，则表明其对相关概念有较好的掌握。反之，则表明存在理解上的不足。

技术框架：研究流程包括以下几个步骤：1) 从生成语法领域选取44个核心术语；2) 将这些术语人工翻译成阿拉伯语；3) 使用ChatGPT-5将这些术语翻译成阿拉伯语；4) 对比人工翻译和ChatGPT-5的翻译结果，评估ChatGPT-5的翻译质量。评估标准包括准确、不准确和部分正确三个等级。

关键创新：该研究的创新之处在于，它采用了一种间接的方式来评估LLMs对特定领域知识的理解能力，即通过分析其翻译质量。这种方法可以有效地揭示LLMs在处理复杂概念时存在的不足，并为改进LLMs的设计提供指导。此外，该研究还强调了人工智能专家和语言学家之间合作的重要性。

关键设计：研究的关键设计在于选取了生成语法这一特定领域，并选择了44个具有代表性的术语。此外，研究还采用了人工翻译作为基准，以确保评估的客观性和准确性。评估标准的设计也至关重要，准确、不准确和部分正确三个等级能够较为全面地反映翻译质量。

📊 实验亮点

实验结果表明，ChatGPT-5在翻译生成语法术语时，只有25%的翻译是准确的，38.6%是不准确的，36.4%是部分正确的。这表明当前LLMs在理解和翻译复杂语法概念方面仍存在显著不足，需要进一步改进。

🎯 应用场景

该研究成果可应用于改进机器翻译系统，提高其在专业领域的翻译质量。此外，该研究也为开发更智能的语言学习工具提供了参考，有助于提升LLMs在语言理解和生成方面的能力。未来，该研究思路可扩展到其他专业领域，评估LLMs在更广泛知识领域的理解能力。

📄 摘要（原文）

We aim to examine the extent to which Large Language Models (LLMs) can 'talk much' about grammar modules, providing evidence from syntax core properties translated by ChatGPT into Arabic. We collected 44 terms from generative syntax previous works, including books and journal articles, as well as from our experience in the field. These terms were translated by humans, and then by ChatGPT-5. We then analyzed and compared both translations. We used an analytical and comparative approach in our analysis. Findings unveil that LLMs still cannot 'talk much' about the core syntax properties embedded in the terms under study involving several syntactic and semantic challenges: only 25% of ChatGPT translations were accurate, while 38.6% were inaccurate, and 36.4.% were partially correct, which we consider appropriate. Based on these findings, a set of actionable strategies were proposed, the most notable of which is a close collaboration between AI specialists and linguists to better LLMs' working mechanism for accurate or at least appropriate translation.

Current LLMs still cannot 'talk much' about grammar modules: Evidence from syntax

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理