Korean Culture into LLM Alignment: Toward Cultural Coherence
作者: MinJae Jung, Minwoo Kim
分类: cs.CL
发布日期: 2026-06-05
备注: Accepted to ICML 2026 Workshop on Culture X AI
💡 一句话要点
提出文化一致性框架以提升韩语LLM的安全性
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 文化一致性 安全响应 DPO微调 韩国文化 对齐数据管道
📋 核心要点
- 现有的大型语言模型在文化适应性方面主要关注如何抑制不当输出,缺乏对文化一致性响应的积极定义。
- 本文提出了一种基于提示的LLM种子生成器,构建了围绕韩国文化的安全响应政策,并扩展了危害分类法。
- 通过对生成的响应进行DPO微调,提升了模型在韩国文化安全性方面的表现,同时保持了通用能力的稳定性。
📝 摘要(中文)
在大型语言模型的文化相关工作中,主要集中于抑制不当输出。本文主张需要一个建设性的对立面,即明确文化一致性响应的定义,并将其应用于韩国文化。我们设计了一个基于提示的LLM种子生成器的对齐数据管道,扩展了韩国的危害分类法,并以适应韩国文化的安全响应政策为核心,制定了基于法律框架和社会规范的分类指南。通过对生成的响应三元组进行DPO微调,提升了六个开放权重LLM的韩国文化安全率,同时在韩国通用能力基准上未造成显著下降,定性结果显示微调后的模型能够引用韩国法律和机构程序,并在适当情况下提供建设性的韩国背景信息。
🔬 方法详解
问题定义:本文旨在解决大型语言模型在文化适应性方面的不足,尤其是缺乏对文化一致性响应的积极定义,现有方法主要集中于抑制不当输出。
核心思路:论文提出了一个围绕韩国文化的对齐数据管道,强调构建文化一致性响应的必要性,并通过设计适应韩国文化的安全响应政策来实现。
技术框架:整体架构包括一个提示基础的LLM种子生成器,扩展了韩国的危害分类法,并制定了基于法律和社会规范的分类指南,最终通过DPO微调提升模型的文化安全性。
关键创新:最重要的创新点在于建立了一个针对韩国文化的安全响应政策,并通过DPO微调显著提升了模型的文化适应性,区别于以往仅关注抑制不当输出的方法。
关键设计:在设计中,采用了基于分类的响应生成策略,结合了韩国法律框架和社会规范,确保生成的响应不仅安全且符合文化背景。
🖼️ 关键图片
📊 实验亮点
实验结果表明,通过DPO微调,六个开放权重LLM的韩国文化安全率显著提升,且在韩国通用能力基准测试中未出现大幅下降。定性分析显示,微调后的模型能够准确引用韩国法律和程序,提供相关的文化背景信息。
🎯 应用场景
该研究的潜在应用领域包括教育、客户服务和社交媒体等需要文化敏感性的对话系统。通过提升语言模型的文化一致性,能够更好地满足用户需求,减少文化误解,增强用户体验。未来,该方法可推广至其他文化背景的语言模型对齐任务。
📄 摘要(原文)
Cultural-aspect work on large language models is dominated by a negative target: which outputs to suppress. We argue that a constructive counterpart is also needed, a working definition of what a culturally coherent response is rather than only what it must avoid, and instantiate it for Korean. We design an alignment-data pipeline around a prompt-based LLM seed generator that expands a Korean harm taxonomy, with a Korean-culturally-adapted safe-response policy at its centre: a per-category guideline grounded in Korean legal frameworks, social norms, and interpretive conventions, against which three frontier models each produce a candidate response. DPO fine-tuning on the resulting triplets improves the Korean cultural safe rate across six open-weight LLMs while causing no large degradation on Korean general-capability benchmarks, and qualitative outputs show fine-tuned models naming Korean statutes and institutional procedures and, where appropriate, supplying constructive Korean-context information alongside refusal.