Korean Culture into LLM Alignment: Toward Cultural Coherence

作者: MinJae Jung, Minwoo Kim

分类: cs.CL

发布日期: 2026-06-05

备注: Accepted to ICML 2026 Workshop on Culture X AI

💡 一句话要点

提出文化一致性框架以提升韩语LLM的安全性

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 文化一致性 安全响应 DPO微调 韩国文化 对齐数据管道

📋 核心要点

现有的大型语言模型在文化适应性方面主要关注如何抑制不当输出，缺乏对文化一致性响应的积极定义。
本文提出了一种基于提示的LLM种子生成器，构建了围绕韩国文化的安全响应政策，并扩展了危害分类法。
通过对生成的响应进行DPO微调，提升了模型在韩国文化安全性方面的表现，同时保持了通用能力的稳定性。

📝 摘要（中文）

在大型语言模型的文化相关工作中，主要集中于抑制不当输出。本文主张需要一个建设性的对立面，即明确文化一致性响应的定义，并将其应用于韩国文化。我们设计了一个基于提示的LLM种子生成器的对齐数据管道，扩展了韩国的危害分类法，并以适应韩国文化的安全响应政策为核心，制定了基于法律框架和社会规范的分类指南。通过对生成的响应三元组进行DPO微调，提升了六个开放权重LLM的韩国文化安全率，同时在韩国通用能力基准上未造成显著下降，定性结果显示微调后的模型能够引用韩国法律和机构程序，并在适当情况下提供建设性的韩国背景信息。

🔬 方法详解

问题定义：本文旨在解决大型语言模型在文化适应性方面的不足，尤其是缺乏对文化一致性响应的积极定义，现有方法主要集中于抑制不当输出。

核心思路：论文提出了一个围绕韩国文化的对齐数据管道，强调构建文化一致性响应的必要性，并通过设计适应韩国文化的安全响应政策来实现。

技术框架：整体架构包括一个提示基础的LLM种子生成器，扩展了韩国的危害分类法，并制定了基于法律和社会规范的分类指南，最终通过DPO微调提升模型的文化安全性。

关键创新：最重要的创新点在于建立了一个针对韩国文化的安全响应政策，并通过DPO微调显著提升了模型的文化适应性，区别于以往仅关注抑制不当输出的方法。

关键设计：在设计中，采用了基于分类的响应生成策略，结合了韩国法律框架和社会规范，确保生成的响应不仅安全且符合文化背景。

🖼️ 关键图片

📊 实验亮点

实验结果表明，通过DPO微调，六个开放权重LLM的韩国文化安全率显著提升，且在韩国通用能力基准测试中未出现大幅下降。定性分析显示，微调后的模型能够准确引用韩国法律和程序，提供相关的文化背景信息。

🎯 应用场景

该研究的潜在应用领域包括教育、客户服务和社交媒体等需要文化敏感性的对话系统。通过提升语言模型的文化一致性，能够更好地满足用户需求，减少文化误解，增强用户体验。未来，该方法可推广至其他文化背景的语言模型对齐任务。

📄 摘要（原文）

Cultural-aspect work on large language models is dominated by a negative target: which outputs to suppress. We argue that a constructive counterpart is also needed, a working definition of what a culturally coherent response is rather than only what it must avoid, and instantiate it for Korean. We design an alignment-data pipeline around a prompt-based LLM seed generator that expands a Korean harm taxonomy, with a Korean-culturally-adapted safe-response policy at its centre: a per-category guideline grounded in Korean legal frameworks, social norms, and interpretive conventions, against which three frontier models each produce a candidate response. DPO fine-tuning on the resulting triplets improves the Korean cultural safe rate across six open-weight LLMs while causing no large degradation on Korean general-capability benchmarks, and qualitative outputs show fine-tuned models naming Korean statutes and institutional procedures and, where appropriate, supplying constructive Korean-context information alongside refusal.

Korean Culture into LLM Alignment: Toward Cultural Coherence

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理