Training-Free Cultural Alignment of Large Language Models via Persona Disagreement
作者: Huynh Trung Kiet, Dao Sy Duy Minh, Tuan Nguyen, Chi-Nguyen Tran, Phu-Hoa Pham, Nguyen Lam Phu Quy, The Anh Han, Long Tran-Thanh
分类: cs.CL, cs.AI, cs.CY
发布日期: 2026-05-11
备注: 57 pages, 1 figure, 6 MultiTP moral dimensions
💡 一句话要点
提出DISCA推理时对齐方法,无需微调即可实现大语言模型的跨文化价值对齐
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 文化对齐 推理时校准 黑盒优化 道德判断 社会价值观
📋 核心要点
- 现有文化对齐方法高度依赖特定国家标注数据及昂贵的微调过程,且在黑盒API场景下无法直接应用。
- DISCA利用国家内部社会人口统计学分歧作为引导信号,通过构建基于WVS的代理人小组进行推理时Logit修正。
- 实验证明该方法在无需权重更新的前提下,显著降低了模型在多文化场景下的偏差,且具有良好的跨模型扩展性。
📝 摘要(中文)
大语言模型在涉及道德判断的决策中扮演着日益重要的角色,但研究表明其隐含偏好并非文化中立。现有的文化对齐方法通常依赖于特定国家的偏好数据和微调预算,或者需要访问模型内部参数,这在商业API等黑盒场景下难以实现。本文针对黑盒、仅限公开数据的现实场景,提出了一种名为DISCA(基于分歧信息的文化对齐引导)的推理时方法。该方法将每个国家实例化为一组基于世界价值观调查(WVS)的代理人小组,并将代理人之间的分歧转化为有界的、风险规避的Logit修正。在涵盖20个国家和7种开源模型(2B-70B)的实验中,DISCA在MultiTP基准测试上将模型文化偏差降低了10%-24%(针对3.8B以上模型),且无需修改任何模型权重。研究表明,推理时校准是微调的一种可扩展替代方案,能够有效服务于全球道德偏好的长尾需求。
🔬 方法详解
问题定义:论文旨在解决大语言模型在跨文化道德判断中存在的隐性偏见问题。现有方法痛点在于:一是需要昂贵的微调预算和特定文化偏好数据集;二是许多先进模型仅提供黑盒API访问,无法进行参数微调或白盒干预。
核心思路:论文提出利用国家内部的“社会人口统计学分歧”而非“共识”作为引导信号。通过构建基于世界价值观调查(WVS)的代理人小组,模拟不同文化背景下的观点冲突,并将其转化为推理时的Logit修正,从而实现无需训练的文化对齐。
技术框架:DISCA框架包含三个阶段:首先,基于WVS数据构建代表特定国家人口结构的代理人小组;其次,在推理时让这些代理人对目标问题进行预测;最后,计算代理人之间的分歧,并将其转化为一种有界的、风险规避的Logit修正项,直接作用于模型输出层。
关键创新:最重要的创新在于将“分歧”作为一种有效的对齐信号,而非强行追求单一的文化共识。这种方法避开了对模型权重的修改,实现了推理时的动态校准,极大地降低了部署门槛。
关键设计:该方法采用了一种基于风险规避的Logit修正机制,通过对代理人预测结果的加权聚合,计算出修正向量。该向量被限制在特定范围内,以确保在纠正文化偏差的同时,不破坏模型原有的逻辑推理能力和语言生成质量。
🖼️ 关键图片
📊 实验亮点
在20个国家和7种开源模型(2B-70B)的广泛测试中,DISCA表现出色。对于参数量大于3.8B的模型,在MultiTP基准测试中文化失调率降低了10%-24%;在开放式场景中,偏差降低了2%-7%。实验证明,该方法在无需任何权重更新的情况下,即可实现与微调相当甚至更优的对齐效果。
🎯 应用场景
该技术适用于全球化部署的大语言模型,特别是在法律咨询、医疗建议、公共政策分析等对文化敏感度要求极高的领域。它为无法获取模型权重或缺乏微调资源的开发者提供了一种低成本、高效率的文化对齐方案,有助于提升AI在全球范围内的公平性与包容性。
📄 摘要(原文)
Large language models increasingly mediate decisions that turn on moral judgement, yet a growing body of evidence shows that their implicit preferences are not culturally neutral. Existing cultural alignment methods either require per-country preference data and fine-tuning budgets or assume white-box access to model internals that commercial APIs do not expose. In this work, we focus on this realistic black-box, public-data-only regime and observe that within-country sociodemographic disagreement, not consensus, is the primary steering signal. We introduce DISCA (Disagreement-Informed Steering for Cultural Alignment), an inference-time method that instantiates each country as a panel of World-Values-Survey-grounded persona agents and converts their disagreement into a bounded, loss-averse logit correction. Across 20 countries and 7 open-weight backbones (2B--70B), DISCA reduces cultural misalignment on MultiTP by 10--24% on the six backbones >=3.8B, and 2--7% on open-ended scenarios, without changing any weights. Our results suggest that inference-time calibration is a scalable alternative to fine-tuning for serving the long tail of global moral preferences.