Chandomitra: Towards Generating Structured Sanskrit Poetry from Natural Language Inputs

📄 arXiv: 2506.00815v2 📥 PDF

作者: Manoj Balaji Jagadeeshan, Samarth Bhatia, Pretam Ray, Harshul Raj Surana, Akhil Rajeev P, Priya Mishra, Annarao Kulkarni, Ganesh Ramakrishnan, Prathosh AP, Pawan Goyal

分类: cs.CL

发布日期: 2025-06-01 (更新: 2026-01-16)


💡 一句话要点

Chandomitra:提出一种将英语翻译为梵语诗歌的结构化生成方法,专注于Anushtubh格律。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 梵语诗歌生成 低资源语言 结构化文本生成 约束解码 指令微调

📋 核心要点

  1. 现有大型语言模型在诗歌生成方面表现出色,但主要集中在高资源语言上,低资源语言的结构化诗歌生成仍面临挑战。
  2. Chandomitra通过构建英语到梵语诗歌翻译数据集,并结合约束解码和指令微调,实现了梵语Anushtubh格律诗歌的生成。
  3. 实验表明,约束解码在句法准确率上表现优异(99.86%),而指令微调在语义连贯性和诗歌意境捕捉上更胜一筹。

📝 摘要(中文)

本文提出了一种将英语输入翻译成结构化梵语诗歌的方法,特别关注Anushtubh格律。由于大型语言模型在文本生成方面取得了显著的性能,并且在创造性生成任务中表现出色,因此本文探索了如何利用这些模型来生成低资源语言(如梵语)的结构化诗歌。为此,作者构建了一个名为Chandomitra的数据集,用于英语到结构化梵语诗歌的翻译。论文对各种开源和闭源模型进行了基准测试,并研究了约束解码和指令微调等专门技术。实验结果表明,约束解码方法在生成符合格律的梵语诗歌方面达到了99.86%的句法准确率,优于GPT-4o(单样本:31.24%)。另一方面,最佳的指令微调模型在语义连贯性方面表现更好,但句法准确率略有下降。人工评估进一步表明,指令微调模型更能捕捉诗歌的意境。数据集和代码已公开。

🔬 方法详解

问题定义:论文旨在解决将自然语言(英语)翻译成符合特定格律(Anushtubh)的梵语诗歌的问题。现有方法或通用语言模型在低资源语言(如梵语)的结构化诗歌生成方面表现不佳,难以保证句法准确性和语义连贯性。

核心思路:论文的核心思路是利用大型语言模型的能力,结合约束解码和指令微调等技术,使其能够生成符合梵语诗歌格律的文本。约束解码用于确保生成的诗歌在句法上符合Anushtubh格律,而指令微调则用于提高生成诗歌的语义连贯性和诗歌意境。

技术框架:整体框架包括以下几个主要步骤:1) 构建英语到梵语诗歌翻译数据集Chandomitra;2) 使用各种开源和闭源模型进行基准测试;3) 应用约束解码技术,确保生成的梵语诗歌符合Anushtubh格律;4) 使用指令微调技术,提高生成诗歌的语义连贯性和诗歌意境;5) 进行人工评估,评估生成诗歌的质量。

关键创新:论文的关键创新在于结合了约束解码和指令微调技术,以解决低资源语言结构化诗歌生成中的句法准确性和语义连贯性问题。约束解码确保了生成的诗歌符合特定的格律规则,而指令微调则提高了生成诗歌的语义质量和诗歌意境。

关键设计:约束解码的具体实现方式未知,但其目标是确保生成的梵语诗歌符合Anushtubh格律的音节和重音模式。指令微调的具体实现细节也未知,但其目标是使模型能够更好地理解英语输入,并生成在语义上连贯且具有诗歌意境的梵语诗歌。损失函数和网络结构等细节未在摘要中提及。

🖼️ 关键图片

fig_0
img_1

📊 实验亮点

实验结果表明,约束解码方法在生成符合格律的梵语诗歌方面达到了99.86%的句法准确率,显著优于GPT-4o(单样本:31.24%)。虽然指令微调模型在句法准确率上略有下降,但在语义连贯性和诗歌意境捕捉方面表现更好。人工评估也证实了指令微调模型在诗歌质量上的优势。

🎯 应用场景

该研究成果可应用于梵语诗歌的自动生成、梵语学习辅助工具开发、以及低资源语言的文化传承和保护。通过自动生成符合格律的梵语诗歌,可以降低梵语诗歌创作的门槛,促进梵语文化的传播和发展。此外,该方法也可推广到其他低资源语言的结构化文本生成任务中。

📄 摘要(原文)

Text Generation has achieved remarkable performance using large language models. It has also been recently well-studied that these large language models are capable of creative generation tasks but prominently for high-resource languages. This prompts a fundamental question: Is there a way to utilize these (large) language models for structured poetry generation in a low-resource language, such as Sanskrit? We present Chandomitra, an English input to structured Sanskrit Poetry translation dataset, specifically adhering to the Anushtubh meter. We benchmark various open and closed models, and scrutinize specialized techniques such as constrained decoding and instruction fine-tuning, for the proposed task. Our constrained decoding methodology achieves 99.86% syntactic accuracy in generating metrically valid Sanskrit poetry, outperforming GPT-4o (1-shot: 31.24%). Our best-performing instruction-tuned model, on the other hand, performs better in semantic coherence with the English input, at the expense of slightly lower syntactic accuracy. Human evaluation further reveals that instruction fine-tuned model is better able to capture the poetic aspects. Data and Code are available.