Training-Free Cultural Alignment of Large Language Models via Persona Disagreement

作者: Huynh Trung Kiet, Dao Sy Duy Minh, Tuan Nguyen, Chi-Nguyen Tran, Phu-Hoa Pham, Nguyen Lam Phu Quy, The Anh Han, Long Tran-Thanh

分类: cs.CL, cs.AI, cs.CY

发布日期: 2026-05-11

备注: 57 pages, 1 figure, 6 MultiTP moral dimensions

💡 一句话要点

提出DISCA推理时对齐方法，无需微调即可实现大语言模型的跨文化价值对齐

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 文化对齐 推理时校准 黑盒优化 道德判断 社会价值观

📋 核心要点

现有文化对齐方法高度依赖特定国家标注数据及昂贵的微调过程，且在黑盒API场景下无法直接应用。
DISCA利用国家内部社会人口统计学分歧作为引导信号，通过构建基于WVS的代理人小组进行推理时Logit修正。
实验证明该方法在无需权重更新的前提下，显著降低了模型在多文化场景下的偏差，且具有良好的跨模型扩展性。

📝 摘要（中文）

大语言模型在涉及道德判断的决策中扮演着日益重要的角色，但研究表明其隐含偏好并非文化中立。现有的文化对齐方法通常依赖于特定国家的偏好数据和微调预算，或者需要访问模型内部参数，这在商业API等黑盒场景下难以实现。本文针对黑盒、仅限公开数据的现实场景，提出了一种名为DISCA（基于分歧信息的文化对齐引导）的推理时方法。该方法将每个国家实例化为一组基于世界价值观调查（WVS）的代理人小组，并将代理人之间的分歧转化为有界的、风险规避的Logit修正。在涵盖20个国家和7种开源模型（2B-70B）的实验中，DISCA在MultiTP基准测试上将模型文化偏差降低了10%-24%（针对3.8B以上模型），且无需修改任何模型权重。研究表明，推理时校准是微调的一种可扩展替代方案，能够有效服务于全球道德偏好的长尾需求。

🔬 方法详解

问题定义：论文旨在解决大语言模型在跨文化道德判断中存在的隐性偏见问题。现有方法痛点在于：一是需要昂贵的微调预算和特定文化偏好数据集；二是许多先进模型仅提供黑盒API访问，无法进行参数微调或白盒干预。

核心思路：论文提出利用国家内部的“社会人口统计学分歧”而非“共识”作为引导信号。通过构建基于世界价值观调查（WVS）的代理人小组，模拟不同文化背景下的观点冲突，并将其转化为推理时的Logit修正，从而实现无需训练的文化对齐。

技术框架：DISCA框架包含三个阶段：首先，基于WVS数据构建代表特定国家人口结构的代理人小组；其次，在推理时让这些代理人对目标问题进行预测；最后，计算代理人之间的分歧，并将其转化为一种有界的、风险规避的Logit修正项，直接作用于模型输出层。

关键创新：最重要的创新在于将“分歧”作为一种有效的对齐信号，而非强行追求单一的文化共识。这种方法避开了对模型权重的修改，实现了推理时的动态校准，极大地降低了部署门槛。

关键设计：该方法采用了一种基于风险规避的Logit修正机制，通过对代理人预测结果的加权聚合，计算出修正向量。该向量被限制在特定范围内，以确保在纠正文化偏差的同时，不破坏模型原有的逻辑推理能力和语言生成质量。

🖼️ 关键图片

📊 实验亮点

在20个国家和7种开源模型（2B-70B）的广泛测试中，DISCA表现出色。对于参数量大于3.8B的模型，在MultiTP基准测试中文化失调率降低了10%-24%；在开放式场景中，偏差降低了2%-7%。实验证明，该方法在无需任何权重更新的情况下，即可实现与微调相当甚至更优的对齐效果。

🎯 应用场景

该技术适用于全球化部署的大语言模型，特别是在法律咨询、医疗建议、公共政策分析等对文化敏感度要求极高的领域。它为无法获取模型权重或缺乏微调资源的开发者提供了一种低成本、高效率的文化对齐方案，有助于提升AI在全球范围内的公平性与包容性。

📄 摘要（原文）

Large language models increasingly mediate decisions that turn on moral judgement, yet a growing body of evidence shows that their implicit preferences are not culturally neutral. Existing cultural alignment methods either require per-country preference data and fine-tuning budgets or assume white-box access to model internals that commercial APIs do not expose. In this work, we focus on this realistic black-box, public-data-only regime and observe that within-country sociodemographic disagreement, not consensus, is the primary steering signal. We introduce DISCA (Disagreement-Informed Steering for Cultural Alignment), an inference-time method that instantiates each country as a panel of World-Values-Survey-grounded persona agents and converts their disagreement into a bounded, loss-averse logit correction. Across 20 countries and 7 open-weight backbones (2B--70B), DISCA reduces cultural misalignment on MultiTP by 10--24% on the six backbones >=3.8B, and 2--7% on open-ended scenarios, without changing any weights. Our results suggest that inference-time calibration is a scalable alternative to fine-tuning for serving the long tail of global moral preferences.

Training-Free Cultural Alignment of Large Language Models via Persona Disagreement

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理