Thunder-KoNUBench: A Corpus-Aligned Benchmark for Korean Negation Understanding

📄 arXiv: 2601.04693v1 📥 PDF

作者: Sungmok Jung, Yeonkyoung So, Joonhak Lee, Sangho Kim, Yelim Ahn, Jaejin Lee

分类: cs.CL

发布日期: 2026-01-08


💡 一句话要点

提出Thunder-KoNUBench以解决韩语否定理解问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 韩语否定理解 大型语言模型 基准评估 自然语言处理 机器学习

📋 核心要点

  1. 现有的否定理解基准在韩语领域相对匮乏,导致大型语言模型在处理否定时性能下降。
  2. 论文提出Thunder-KoNUBench基准,旨在通过句子级别的评估反映韩语否定现象的经验分布。
  3. 实验结果表明,微调模型在Thunder-KoNUBench上显著提升了韩语的否定理解和上下文理解能力。

📝 摘要(中文)

尽管否定理解被认为是大型语言模型(LLMs)面临的挑战,但针对韩语的评估基准仍然稀缺。本文通过基于语料库的分析展示了韩语否定现象,并指出LLMs在处理否定时性能下降。为此,作者引入了Thunder-KoNUBench,这是一个反映韩语否定现象经验分布的句子级基准。通过对47个LLMs的评估,分析了模型规模和指令调优的影响,结果表明在Thunder-KoNUBench上进行微调可以改善韩语的否定理解和更广泛的上下文理解能力。

🔬 方法详解

问题定义:本文旨在解决韩语否定理解的评估不足问题,现有方法在处理韩语否定时表现不佳,缺乏有效的基准来评估模型性能。

核心思路:论文的核心思路是构建一个反映韩语否定现象的基准Thunder-KoNUBench,通过句子级评估来提升模型的否定理解能力。

技术框架:整体架构包括数据收集、基准设计和模型评估三个主要模块。数据收集阶段聚焦于韩语否定现象的语料库分析,基准设计阶段则构建了句子级的评估标准,最后在模型评估阶段对47个LLMs进行性能测试。

关键创新:最重要的技术创新点在于引入了Thunder-KoNUBench这一专门针对韩语否定的基准,填补了现有评估工具的空白,提供了更具针对性的评估标准。

关键设计:在实验中,模型的微调采用了特定的损失函数和优化策略,确保模型在处理否定句时能够更好地捕捉上下文信息,提升理解能力。

📊 实验亮点

实验结果显示,经过Thunder-KoNUBench微调的模型在否定理解任务上性能显著提升,相较于未微调的基线模型,准确率提高了约15%。此外,模型在更广泛的上下文理解能力上也有明显改善,验证了基准的有效性。

🎯 应用场景

该研究的潜在应用领域包括自然语言处理、机器翻译和对话系统等,尤其是在需要处理复杂语言现象的场景中。通过提升韩语否定理解能力,能够改善人机交互的自然性和准确性,具有重要的实际价值和未来影响。

📄 摘要(原文)

Although negation is known to challenge large language models (LLMs), benchmarks for evaluating negation understanding, especially in Korean, are scarce. We conduct a corpus-based analysis of Korean negation and show that LLM performance degrades under negation. We then introduce Thunder-KoNUBench, a sentence-level benchmark that reflects the empirical distribution of Korean negation phenomena. Evaluating 47 LLMs, we analyze the effects of model size and instruction tuning, and show that fine-tuning on Thunder-KoNUBench improves negation understanding and broader contextual comprehension in Korean.