PINGALA: Prosody-Aware Decoding for Sanskrit Poetry Generation
作者: Manoj Balaji Jagadeeshan, Atul Singh, Nallani Chakravartula Sahith, Amrith Krishna, Pawan Goyal
分类: cs.CL
发布日期: 2026-03-25
💡 一句话要点
PINGALA:梵语诗歌生成中基于韵律感知的解码方法
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 梵语诗歌生成 韵律感知解码 SLP1音译 交叉编码器评估 自然语言生成
📋 核心要点
- 梵语诗歌生成需同时保证语义连贯和严格的韵律规则,现有方法难以兼顾。
- PINGALA通过将诗句分割为分组行,并偏向选择更长的token,提升语义连贯性。
- 使用语音感知的SLP1音译方案,显著提升了格律对齐,同时保持语义相似性。
📝 摘要(中文)
梵语诗歌生成通常要求诗句在语义上连贯,并遵守严格的韵律规则。在梵语韵律中,诗句的每一行通常是固定长度的音节序列,遵循规定的音节权重二元模式。我们观察到,与其将诗句视为一个整体序列,不如将其分割为分组行,这样可以在语义连贯性方面显著提高10%,同时保持相当的格律一致性。具体来说,PINGALA,我们提出的解码方法,旨在鼓励每一行都具有结构良好的单词,并且我们的token选择通过偏向更长的token来使模型倾向于它。梵语书写遵循音位正字法,因此使用语音感知的音译方案SLP1,对于像Phi-4这样的指令微调大型语言模型,将格律对齐提高了46%,同时保持了相当的语义相似性。我们还引入了一种使用交叉编码器进行无参考评估的新方法,该方法实现了与真实诗歌实例更好的对齐。
🔬 方法详解
问题定义:梵语诗歌生成任务需要同时满足语义连贯性和严格的韵律规则。现有的诗歌生成方法通常难以同时保证这两点,尤其是在长序列生成时,容易出现语义不连贯或韵律不符合规范的问题。此外,缺乏有效的无参考评估方法也是一个挑战。
核心思路:PINGALA的核心思路是将诗句视为分组行的集合,而不是一个单一的序列。通过鼓励每一行都包含结构良好的单词,并偏向选择更长的token,来提高语义连贯性。同时,利用语音感知的音译方案SLP1,可以更好地捕捉梵语的语音特征,从而提高格律对齐的准确性。
技术框架:PINGALA的整体框架包括以下几个主要模块:1) 基于大型语言模型(如Phi-4)的诗歌生成器;2) 一种新的解码方法,该方法将诗句分割为分组行,并偏向选择更长的token;3) 使用SLP1音译方案进行语音感知的文本表示;4) 一种基于交叉编码器的无参考评估方法。
关键创新:PINGALA的关键创新点在于:1) 提出了一种新的解码方法,该方法通过将诗句分割为分组行,并偏向选择更长的token,来提高语义连贯性;2) 使用语音感知的音译方案SLP1,可以更好地捕捉梵语的语音特征,从而提高格律对齐的准确性;3) 引入了一种基于交叉编码器的无参考评估方法,可以更准确地评估生成的诗歌的质量。
关键设计:在解码过程中,PINGALA通过调整token选择的概率分布,来偏向选择更长的token。具体来说,可以采用一种基于长度的奖励机制,对较长的token赋予更高的概率。此外,在SLP1音译方案中,需要仔细设计音素和字符之间的映射关系,以确保能够准确地表示梵语的语音特征。交叉编码器用于无参考评估时,需要训练一个能够区分真实诗歌和生成诗歌的模型。
🖼️ 关键图片
📊 实验亮点
实验结果表明,PINGALA方法在语义连贯性方面提高了10%,格律对齐方面提高了46%。与基线方法相比,PINGALA能够生成更符合梵语诗歌规范,且语义更连贯的诗句。此外,基于交叉编码器的无参考评估方法也表现出与人工评估结果更好的一致性。
🎯 应用场景
该研究成果可应用于梵语诗歌创作辅助工具的开发,帮助诗人和学者更高效地创作和研究梵语诗歌。此外,该方法在语音感知和韵律规则方面的设计思路,也可推广到其他语言的诗歌生成任务中,具有一定的通用性。未来,该研究还可应用于梵语文本的自动校对和修复,提高梵语文献的数字化水平。
📄 摘要(原文)
Poetry generation in Sanskrit typically requires the verse to be semantically coherent and adhere to strict prosodic rules. In Sanskrit prosody, every line of a verse is typically a fixed length sequence of syllables adhering to prescribed binary patterns of syllable weights. We observe that instead of treating a verse as a monolithic sequence, segmenting them as grouped-lines leads to significant improvement in semantic coherence by 10\% with comparable metrical adherence. Specifically, PINGALA, our proposed decoding approach is designed to encourage every line to have well-formed words and our token selection biases the model towards it by preferring longer tokens. Writing in Sanskrit follows phonemic orthography, hence using a phonetically aware transliteration scheme, SLP1, increased the metrical alignment by 46\% with comparable semantic similarity, for a instruction fine-tuned large language models like Phi-4. We also introduce a new approach for reference-free evaluation using cross-encoders which achieved better alignment with true poetry instances.