LLMs Got Rhythm? Hybrid Phonological Filtering for Greek Poetry Rhyme Detection and Generation

📄 arXiv: 2601.09631v1 📥 PDF

作者: Stergios Chatzikyriakidis

分类: cs.CL

发布日期: 2026-01-14


💡 一句话要点

提出混合音韵过滤系统,提升LLM在希腊诗歌押韵检测与生成任务上的性能

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 希腊语诗歌 押韵检测 押韵生成 大型语言模型 混合系统

📋 核心要点

  1. 现有LLM在处理音韵学相关的任务,如押韵检测和生成方面表现不佳,尤其是在低资源语言中。
  2. 论文提出了一种混合系统,结合LLM的生成能力与确定性音韵算法的精确性,用于希腊诗歌的押韵处理。
  3. 实验结果表明,该混合系统显著提升了LLM在押韵检测和生成方面的性能,尤其是在生成任务中效果显著。

📝 摘要(中文)

大型语言模型(LLM)在自然语言处理任务中表现出色,但在音韵学现象(如押韵检测和生成)方面存在困难,尤其是在现代希腊语等低资源语言中。本文提出了一种混合系统,将LLM与确定性音韵算法相结合,以实现准确的押韵识别/分析和生成。该方法实现了希腊语押韵类型的全面分类,包括纯押韵、丰富押韵、不完全押韵、镶嵌押韵和相同前押韵元音(IDV)模式,并采用带有音韵验证的agentic生成流程。评估了包括Claude 3.7和4.5、GPT-4o、Gemini 2.0以及Llama 3.1 8B和70B和Mistral Large等多个LLM的多种提示策略(零样本、少样本、思维链和RAG增强)。结果表明存在显著的“推理差距”:原生模型(Claude 3.7)表现直观(识别准确率为40%),而推理密集型模型(Claude 4.5)仅在使用思维链提示时才能达到最先进的性能(54%)。最关键的是,纯LLM生成失败严重(有效诗歌低于4%),而我们的混合验证循环将性能恢复到73.1%。我们发布了我们的系统以及一个关键的、经过严格清理的包含40,000+押韵的语料库,该语料库来自Anemoskala和Interwar Poetry语料库,以支持未来的研究。

🔬 方法详解

问题定义:论文旨在解决LLM在希腊语诗歌押韵检测和生成方面的不足。现有方法,即直接使用LLM,在处理音韵规则和生成符合要求的押韵诗歌时表现不佳,尤其是在低资源语言环境下,缺乏足够的训练数据和对音韵规则的理解。

核心思路:论文的核心思路是将LLM的生成能力与确定性的音韵规则相结合,构建一个混合系统。LLM负责生成候选押韵词或诗句,而音韵算法则负责验证其是否符合希腊语的押韵规则。这种混合方法旨在弥补LLM在音韵学知识方面的不足,提高押韵检测和生成的准确性。

技术框架:该混合系统包含以下主要模块:1) LLM生成模块:使用不同的提示策略(如零样本、少样本、思维链等)引导LLM生成候选押韵词或诗句。2) 音韵过滤模块:根据预定义的希腊语押韵规则(包括纯押韵、丰富押韵等)对LLM生成的候选结果进行验证和过滤。3) Agentic生成流程:通过迭代的生成和验证过程,不断优化生成的诗歌,使其更符合押韵要求。

关键创新:该论文的关键创新在于将LLM与确定性音韵算法相结合,构建了一个混合系统。这种混合方法充分利用了LLM的生成能力和音韵算法的精确性,从而显著提高了押韵检测和生成的准确性。此外,论文还构建了一个包含40,000+押韵的希腊语语料库,为未来的研究提供了宝贵的数据资源。

关键设计:论文的关键设计包括:1) 详细的希腊语押韵类型分类,包括纯押韵、丰富押韵等。2) 多种提示策略(如思维链)的设计,以引导LLM更好地理解押韵规则。3) 音韵过滤模块中使用的确定性音韵算法的具体实现,包括如何判断两个词是否押韵,以及如何处理不同的押韵类型。

📊 实验亮点

实验结果表明,纯LLM生成诗歌的有效率低于4%,而混合验证循环将性能恢复到73.1%。在使用思维链提示的情况下,Claude 4.5模型在押韵识别任务中达到了54%的准确率,优于其他模型。该研究证明了混合方法在处理音韵学任务方面的有效性。

🎯 应用场景

该研究成果可应用于诗歌创作辅助、语言学习、文化遗产保护等领域。例如,可以开发智能诗歌创作工具,帮助用户创作符合特定韵律要求的希腊语诗歌。此外,该方法还可以推广到其他低资源语言的诗歌处理任务中,具有广泛的应用前景。

📄 摘要(原文)

Large Language Models (LLMs), despite their remarkable capabilities across NLP tasks, struggle with phonologically-grounded phenomena like rhyme detection and generation. This is even more evident in lower-resource languages such as Modern Greek. In this paper, we present a hybrid system that combines LLMs with deterministic phonological algorithms to achieve accurate rhyme identification/analysis and generation. Our approach implements a comprehensive taxonomy of Greek rhyme types, including Pure, Rich, Imperfect, Mosaic, and Identical Pre-rhyme Vowel (IDV) patterns, and employs an agentic generation pipeline with phonological verification. We evaluate multiple prompting strategies (zero-shot, few-shot, Chain-of-Thought, and RAG-augmented) across several LLMs including Claude 3.7 and 4.5, GPT-4o, Gemini 2.0 and open-weight models like Llama 3.1 8B and 70B and Mistral Large. Results reveal a significant "Reasoning Gap": while native-like models (Claude 3.7) perform intuitively (40\% accuracy in identification), reasoning-heavy models (Claude 4.5) achieve state-of-the-art performance (54\%) only when prompted with Chain-of-Thought. Most critically, pure LLM generation fails catastrophically (under 4\% valid poems), while our hybrid verification loop restores performance to 73.1\%. We release our system and a crucial, rigorously cleaned corpus of 40,000+ rhymes, derived from the Anemoskala and Interwar Poetry corpora, to support future research.