CALM: Unleashing the Cross-Lingual Self-Aligning Ability of Language Model Question Answering

作者: Yumeng Wang, Zhiyuan Fan, Qingyun Wang, May Fung, Heng Ji

分类: cs.CL

发布日期: 2025-01-30 (更新: 2025-02-10)

备注: Accepted by NAACL 2025

💡 一句话要点

CALM：释放语言模型在跨语言问答中的自对齐能力

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 跨语言问答 语言模型 知识对齐 自监督学习 直接偏好优化 多语言学习 一致性学习

📋 核心要点

现有大型语言模型在跨语言问答中存在性能差异，对文化无关问题在不同语言下回答不一致。
论文提出CALM方法，通过跨语言自对齐，使模型在不同语言间对齐知识，提升回答一致性。
实验表明，CALM在MEDQA和X-CSQA数据集上有效提升了跨语言知识问答的准确性和一致性。

📝 摘要（中文）

大型语言模型(LLMs)在广泛的多语言语料库上进行预训练，以获取特定于语言的文化知识和通用知识。理想情况下，LLMs应该对跨语言的、与文化无关的问题提供一致的回答，但我们观察到显著的性能差异。为了解决这个问题，我们探索了语言模型的跨语言自对齐能力(CALM)，以对齐跨语言的知识。具体来说，对于给定的问题，我们对不同语言的多个响应进行采样，并选择最自洽的响应作为目标，其余响应作为负例。然后，我们采用直接偏好优化(DPO)来对齐模型在不同语言之间的知识。在MEDQA和X-CSQA数据集上的评估表明，CALM在增强跨语言知识问答方面是有效的，无论是在零样本还是检索增强设置中。我们还发现，增加CALM训练中涉及的语言数量会导致更高的准确性和一致性。我们对跨语言一致性如何增强知识对齐进行了定性分析，并探讨了该方法的泛化能力。

🔬 方法详解

问题定义：论文旨在解决大型语言模型在跨语言问答中表现出的不一致性问题。即使是与文化无关的知识性问题，模型在不同语言下的回答也可能存在差异，这表明模型在不同语言之间对知识的理解和应用存在偏差。现有方法未能有效解决这种跨语言知识对齐的问题。

核心思路：CALM的核心思路是利用语言模型的跨语言自洽性来对齐知识。具体来说，对于一个问题，模型用多种语言生成答案，然后选择最“一致”的答案作为正确答案，并将其他答案作为负例。通过这种方式，模型可以学习到不同语言之间知识的对应关系，从而提高跨语言问答的一致性和准确性。

技术框架：CALM的整体框架包括以下几个步骤：1) 对给定的问题，使用语言模型生成多种语言的答案；2) 使用某种一致性度量方法（例如，基于语言模型本身的互译和相似度计算）来评估不同答案之间的自洽性；3) 选择自洽性最高的答案作为正例，其余答案作为负例；4) 使用直接偏好优化（DPO）算法，根据正负例对模型进行微调，从而使模型更倾向于生成一致的答案。

关键创新：CALM的关键创新在于它利用了语言模型自身的跨语言能力来进行知识对齐，而不需要额外的监督信号或翻译资源。这种自监督的方式可以有效地利用大规模多语言语料库中蕴含的知识，并且可以避免翻译过程中的信息损失。此外，使用DPO算法可以更有效地对齐模型的偏好，从而提高生成答案的质量和一致性。

关键设计：在CALM中，一致性度量方法的选择至关重要。论文中可能采用了基于语言模型互译和语义相似度计算的方法。例如，将不同语言的答案翻译成同一种语言，然后计算它们之间的语义相似度。DPO算法中的奖励函数需要根据一致性度量结果进行设计，以鼓励模型生成更一致的答案。此外，参与CALM训练的语言数量也是一个重要的参数，更多的语言可以提供更丰富的跨语言信息，从而提高知识对齐的效果。

🖼️ 关键图片

📊 实验亮点

实验结果表明，CALM在MEDQA和X-CSQA数据集上显著提升了跨语言知识问答的性能。具体而言，增加CALM训练中涉及的语言数量会导致更高的准确性和一致性。定性分析表明，跨语言一致性可以有效增强知识对齐，并且该方法具有良好的泛化能力。这些结果验证了CALM方法的有效性和潜力。

🎯 应用场景

CALM方法具有广泛的应用前景，可以应用于多语言智能客服、跨语言信息检索、机器翻译等领域。通过提高语言模型在不同语言之间的知识一致性，可以提升用户体验，减少信息偏差，并促进不同语言文化之间的交流。未来，该方法可以进一步扩展到更多语言和领域，并与其他技术相结合，例如知识图谱和多模态学习。

📄 摘要（原文）

Large Language Models (LLMs) are pretrained on extensive multilingual corpora to acquire both language-specific cultural knowledge and general knowledge. Ideally, while LLMs should provide consistent responses to culture-independent questions across languages, we observe significant performance disparities. To address this, we explore the Cross-Lingual Self-Aligning ability of Language Models (CALM) to align knowledge across languages. Specifically, for a given question, we sample multiple responses across different languages and select the most self-consistent response as the target, leaving the remaining responses as negative examples. We then employ direct preference optimization (DPO) to align the model's knowledge across different languages. Evaluations on the MEDQA and X-CSQA datasets demonstrate CALM's effectiveness in enhancing cross-lingual knowledge question answering, both in zero-shot and retrieval-augmented settings. We also found that increasing the number of languages involved in CALM training leads to higher accuracy and consistency. We offer a qualitative analysis of how cross-lingual consistency can enhance knowledge alignment and explore the method's generalizability.

CALM: Unleashing the Cross-Lingual Self-Aligning Ability of Language Model Question Answering

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理