Enhancing Multilingual Counterfactual Generation through Alignment-as-Preference Optimization

📄 arXiv: 2605.11632v1 📥 PDF

作者: Yilong Wang, Qianli Wang, Bohao Chu, Yihong Liu, Jing Yang, Simon Ostermann

分类: cs.CL, cs.AI

发布日期: 2026-05-12

备注: In submission


💡 一句话要点

提出Macro框架,通过偏好对齐优化提升多语言反事实生成效果

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 反事实解释 多语言模型 偏好优化 直接偏好优化 可解释性 大型语言模型 模型对齐

📋 核心要点

  1. 现有方法在非主要语言中生成有效反事实解释(SCEs)存在困难,且有效性和最小性之间存在权衡。
  2. 提出Macro框架,利用直接偏好优化(DPO)和复合评分函数,将有效性和最小性的权衡转化为偏好信号。
  3. 实验表明,Macro在多个LLM和语言上提高了SCEs的有效性,同时保持了最小性,优于现有方法。

📝 摘要(中文)

自生成的反事实解释(SCEs)是由大型语言模型(LLMs)生成的、对输入进行最小修改(最小性)以使其自身预测翻转(有效性)的样本,它提供了一种因果驱动的方法来揭示黑盒LLM的行为。然而,将它们扩展到英语以外的语言仍然具有挑战性:现有方法难以在非主要语言中生成有效的SCEs,并且有效性和最小性之间的持续权衡损害了解释的质量。我们引入了Macro,一个偏好对齐框架,它将直接偏好优化(DPO)应用于多语言SCE生成,使用复合评分函数来构建偏好对,有效地将权衡转化为可测量的偏好信号。在四个LLM和七种类型学上不同的语言上的实验表明,Macro在不降低最小性的前提下,比思维链基线平均提高了12.55%的有效性,同时避免了基于翻译的基线的严重最小性违规。与监督微调相比,Macro在两个指标上都取得了优异的性能,证实了显式偏好优化对于平衡这种权衡至关重要。进一步的分析表明,Macro增加了跨语言扰动对齐,并减轻了常见的生成错误。我们的结果表明,偏好优化是增强多语言模型解释的一个有希望的方向。

🔬 方法详解

问题定义:论文旨在解决多语言环境下,大型语言模型(LLMs)自生成反事实解释(SCEs)时,有效性(预测翻转)和最小性(输入修改最小化)难以兼顾的问题。现有方法在非主要语言上的表现不佳,且基于翻译的方法会严重破坏最小性,而监督微调难以平衡有效性和最小性之间的权衡。

核心思路:论文的核心思路是将有效性和最小性之间的权衡转化为可学习的偏好信号,并利用直接偏好优化(DPO)来训练模型。通过构建偏好对,模型学习到更倾向于既能翻转预测又能保持最小修改的SCEs。这种方法避免了直接优化复杂的目标函数,而是通过学习偏好来隐式地平衡多个目标。

技术框架:Macro框架主要包含以下几个阶段:1) 使用LLM生成初始的SCEs;2) 使用复合评分函数对生成的SCEs进行评分,该函数综合考虑了有效性和最小性;3) 基于评分构建偏好对,即选择一个更优的SCE和一个较差的SCE;4) 使用DPO算法,根据偏好对微调LLM,使其更倾向于生成更优的SCEs。

关键创新:论文的关键创新在于将偏好优化引入到多语言反事实解释生成中,并设计了有效的复合评分函数来构建偏好对。与传统的监督微调相比,DPO能够更有效地学习有效性和最小性之间的权衡。此外,该方法直接在目标LLM上进行微调,避免了使用额外的代理模型。

关键设计:复合评分函数是关键的设计之一,它将有效性和最小性结合起来,用于评估SCEs的质量。DPO算法使用标准的DPO损失函数,目标是最大化更优SCE的概率,同时最小化较差SCE的概率。实验中,作者使用了不同的LLM和多种语言,并调整了DPO的超参数,例如学习率和batch size,以获得最佳性能。

📊 实验亮点

实验结果表明,Macro框架在四个LLM和七种语言上,平均提高了12.55%的有效性,且没有降低最小性。与基于翻译的基线相比,Macro避免了严重的最小性违规。与监督微调相比,Macro在有效性和最小性两个指标上都取得了更好的性能,验证了偏好优化在平衡有效性和最小性方面的优势。

🎯 应用场景

该研究成果可应用于提升多语言环境下大型语言模型的可解释性和可靠性。通过生成高质量的反事实解释,用户可以更好地理解模型的决策过程,发现潜在的偏见和错误,从而提高模型在各种实际应用中的信任度和安全性,例如金融风控、医疗诊断和法律咨询等。

📄 摘要(原文)

Self-generated counterfactual explanations (SCEs) are minimally modified inputs (minimality) generated by large language models (LLMs) that flip their own predictions (validity), offering a causally grounded approach to unraveling black-box LLM behavior. Yet extending them beyond English remains challenging: existing methods struggle to produce valid SCEs in non-dominant languages, and a persistent trade-off between validity and minimality undermines explanation quality. We introduce Macro, a preference alignment framework that applies Direct Preference Optimization (DPO) to multilingual SCE generation, using a composite scoring function to construct preference pairs that effectively translate the trade-off into measurable preference signals. Experiments across four LLMs and seven typologically diverse languages show that Macro improves validity by 12.55\% on average over the chain-of-thought baseline without degrading minimality, while avoiding the severe minimality violations of the translation-based baseline. Compared to supervised fine-tuning, Macro achieves superior performance on both metrics, confirming that explicit preference optimization is essential for balancing this trade-off. Further analyses reveal that Macro increases cross-lingual perturbation alignment and mitigates common generation errors. Our results highlight preference optimization as a promising direction for enhancing multilingual model explanations.