Can Large Language Models Handle Discourse Particles? A Case Study of Colloquial Malay

📄 arXiv: 2605.28782v1 📥 PDF

作者: Mariah Al Giptiah Binte Yusoff, Jakin Tan, Bocheng Chen, Guangliang Liu, Xi Chen

分类: cs.CL

发布日期: 2026-05-27


💡 一句话要点

提出MalayPrag基准,评估LLM处理马来口语语篇助词的能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 语篇助词 大型语言模型 马来语 语用学 基准数据集

📋 核心要点

  1. 现有研究对LLM处理语篇助词的能力理解不足,尤其缺乏对东南亚语言的关注。
  2. 论文提出MalayPrag基准,并设计五个属性来统一解释语篇助词的语用功能。
  3. 实验表明,LLM在理解马来语语篇助词的语用功能方面存在挑战,但结构化属性可以显著改善。

📝 摘要(中文)

语篇助词(如“well”和“kind of”)是使大型语言模型(LLM)更像人类一样“说话”的关键组成部分。它们用于传达情感、意图和人际意义。然而,现有的研究尚未全面了解LLM处理语篇助词的能力。此外,有限的研究主要集中在英语等高资源语言上,很少关注东南亚语言。在本文中,我们(1)提出了MalayPrag,这是一个旨在系统地评估和分析LLM处理马来口语语篇助词能力的基准;(2)介绍了五个属性,这些属性提供了一个语言学基础的统一框架,用于解释语篇助词的语用功能。应用这两项贡献,我们提示了十个现成的LLM来执行三个预测任务。实验结果表明,当前的LLM在准确地将语篇助词与其在马来语中的语用功能联系起来方面面临着巨大的挑战。本研究中设计的五个属性的提供显著改善了这些联系,突出了对模型语用能力进行结构化支架的必要性。

🔬 方法详解

问题定义:论文旨在解决LLM在理解和处理马来口语中的语篇助词时遇到的困难。现有方法主要集中在高资源语言上,忽略了东南亚语言的特殊性,并且缺乏一个系统性的评估框架来衡量LLM的语用能力。现有方法难以准确捕捉语篇助词所蕴含的情感、意图和人际意义。

核心思路:论文的核心思路是构建一个专门针对马来语语篇助词的基准数据集(MalayPrag),并设计一套具有语言学基础的属性框架,用于指导LLM学习语篇助词的语用功能。通过提供结构化的信息,帮助LLM更好地理解语篇助词在特定语境下的含义。

技术框架:整体框架包括两个主要部分:一是MalayPrag基准的构建,包含多种语篇助词及其对应的语境;二是五个属性的定义,用于描述语篇助词的语用功能。研究者使用这五个属性来标注MalayPrag数据集,然后利用该数据集对十个现成的LLM进行评估,通过三个预测任务来测试LLM的语用能力。

关键创新:论文的关键创新在于提出了MalayPrag基准和五个属性框架。MalayPrag是首个针对马来语语篇助词的评估基准,填补了该领域的空白。五个属性框架提供了一个统一的、语言学基础的视角来理解语篇助词的语用功能,为LLM的学习提供了结构化的指导。

关键设计:关于五个属性的具体定义,论文中应该有详细的描述,但摘要中未提及。实验中,研究者通过prompt的方式将这五个属性提供给LLM,观察其对预测结果的影响。具体的参数设置、损失函数和网络结构取决于所使用的LLM,论文重点在于评估LLM的语用能力,而非提出新的模型结构。

🖼️ 关键图片

fig_0

📊 实验亮点

实验结果表明,现有的LLM在处理马来语语篇助词方面存在显著挑战。然而,通过提供论文中设计的五个属性,LLM在预测任务上的表现得到了显著提升,这表明结构化的语用信息对于提高LLM的语用能力至关重要。具体的性能提升数据需要在论文中查找。

🎯 应用场景

该研究成果可应用于提升聊天机器人、智能助手等应用在马来语环境下的自然度和流畅度。通过更好地理解语篇助词,这些应用能够更准确地捕捉用户的情感和意图,从而提供更个性化和更贴近人类的交互体验。未来,该研究方法可以推广到其他低资源语言,促进多语言自然语言处理的发展。

📄 摘要(原文)

Discourse particles, such as \textit{well} and \textit{kind of}, are crucial components that enable LLMs to ``speak'' more like humans. They are used to convey emotions, intentions, and interpersonal meanings. However, existing studies have not yet built a comprehensive understanding of LLMs' capabilities in handling discourse particles. Moreover, the limited number of studies focuses primarily on high-resource languages such as English, with little attention paid to Southeast Asian languages. In this paper, we (1) propose \textsc{MalayPrag}, a benchmark designed to systematically evaluate and analyze LLMs' capabilities in handling discourse particles in colloquial Malay; and (2) introduce five attributes that provide a linguistically grounded, unified framework for interpreting the pragmatic functions of discourse particles. Applying these two contributions, we prompt ten off-the-shelf LLMs to perform three prediction tasks. The experimental results reveal substantial challenges for current LLMs in accurately connecting discourse particles with their pragmatic functions in Malay. The provision of the five attributes designed in this study is found to significantly improve these connections, highlighting the need for structured scaffolding for models' pragmatic competence.