From Fragments to Facts: A Curriculum-Driven DPO Approach for Generating Hindi News Veracity Explanations

📄 arXiv: 2507.05179v2 📥 PDF

作者: Pulkit Bansal, Raghvendra Kumar, Shakti Singh, Sriparna Saha, Adam Jatowt

分类: cs.CL

发布日期: 2025-07-07 (更新: 2025-07-13)


💡 一句话要点

提出基于课程学习的DPO框架,用于生成印地语新闻真伪解释

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 新闻真伪检测 印地语 直接偏好优化 课程学习 低资源语言 自然语言生成 可解释性

📋 核心要点

  1. 现有印地语新闻真伪解释工具不足,难以有效应对虚假信息传播,尤其是在低资源语言环境下。
  2. 论文提出结合课程学习的DPO框架,利用事实核查解释作为偏好数据,优化LLM生成解释的能力。
  3. 实验结果表明,该框架在生成连贯、上下文相关解释方面有效,提升了解释质量和一致性。

📝 摘要(中文)

在虚假信息泛滥的时代,生成可靠的新闻解释至关重要,尤其对于印地语等代表性不足的语言。由于缺乏强大的自动化工具,印地语在扩大虚假信息检测规模方面面临挑战。为了弥合这一差距,我们提出了一种新颖的框架,该框架将直接偏好优化(DPO)与课程学习相结合,以使机器生成的解释与人类推理保持一致。来自可信来源的事实验证解释作为首选响应,而LLM输出则突出显示系统局限性并作为非首选响应。为了完善特定于任务的对齐,我们将两个关键参数——Actuality和Finesse——引入DPO损失函数,从而提高了解释的质量和一致性。使用LLM(Mistral、Llama、Gemma)和PLM(mBART、mT5)进行的实验证实了该框架在生成连贯、上下文相关的解释方面的有效性。这种可扩展的方法可以对抗虚假信息,并将自动解释生成扩展到低资源语言。

🔬 方法详解

问题定义:论文旨在解决印地语新闻真伪解释生成问题。现有方法缺乏针对印地语等低资源语言的有效工具,难以生成高质量、与人类推理一致的解释,从而限制了虚假信息检测的规模化应用。

核心思路:核心思路是利用直接偏好优化(DPO)算法,结合课程学习的思想,使LLM生成的解释与人类的偏好对齐。通过将事实核查解释作为首选响应,LLM的输出作为非首选响应,DPO算法可以学习到生成高质量解释的策略。课程学习则通过逐步增加训练难度,提高模型的泛化能力。

技术框架:整体框架包含数据准备、模型训练和评估三个主要阶段。数据准备阶段收集事实核查解释和LLM生成的解释,并将其标记为首选和非首选响应。模型训练阶段使用DPO算法,结合课程学习策略,优化LLM的参数。评估阶段使用指标评估生成解释的质量和一致性。

关键创新:关键创新在于将DPO算法与课程学习相结合,并引入了Actuality和Finesse两个参数到DPO损失函数中。Actuality参数用于衡量解释的事实准确性,Finesse参数用于衡量解释的流畅性和可读性。这两个参数的引入可以更好地引导模型生成高质量的解释。

关键设计:DPO损失函数的设计是关键。除了标准的DPO损失项外,还加入了Actuality和Finesse两个参数的加权项。这些参数的具体计算方法和权重设置需要根据具体任务进行调整。课程学习策略的具体实现也需要根据数据集的特点进行设计,例如可以按照解释的长度或复杂程度进行排序。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该框架在生成印地语新闻真伪解释方面取得了显著效果。与基线模型相比,该框架生成的解释更加连贯、上下文相关,并且在Actuality和Finesse两个指标上均有显著提升。具体性能数据未知,但论文强调了在LLM(Mistral、Llama、Gemma)和PLM(mBART、mT5)上的有效性。

🎯 应用场景

该研究成果可应用于自动化新闻真伪检测系统,尤其是在低资源语言环境下。通过自动生成新闻解释,可以帮助用户更好地理解新闻内容,识别虚假信息,提高信息素养。未来,该方法可以扩展到其他低资源语言,并应用于其他领域的文本生成任务。

📄 摘要(原文)

In an era of rampant misinformation, generating reliable news explanations is vital, especially for under-represented languages like Hindi. Lacking robust automated tools, Hindi faces challenges in scaling misinformation detection. To bridge this gap, we propose a novel framework integrating Direct Preference Optimization (DPO) with curriculum learning to align machine-generated explanations with human reasoning. Fact-checked explanations from credible sources serve as preferred responses, while LLM outputs highlight system limitations and serve as non-preferred responses. To refine task-specific alignment, we introduce two key parameters -- Actuality and Finesse -- into the DPO loss function, enhancing explanation quality and consistency. Experiments with LLMs (Mistral, Llama, Gemma) and PLMs (mBART, mT5) confirm the framework's effectiveness in generating coherent, contextually relevant explanations. This scalable approach combats misinformation and extends automated explanation generation to low-resource languages.