DVMap: Fine-Grained Pluralistic Value Alignment via High-Consensus Demographic-Value Mapping
作者: Pengyun Zhu, Yuqi Ren, Zhen Wang, Lei Yang, Deyi Xiong
分类: cs.AI
发布日期: 2026-05-14
备注: Accepted to the Main Conference of ACL 2026
🔗 代码/项目: GITHUB
💡 一句话要点
DVMap:通过高共识人口统计-价值映射实现细粒度多元价值对齐
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 价值对齐 大型语言模型 人口统计特征 思维链 策略优化 多元文化 价值观调查 细粒度建模
📋 核心要点
- 现有LLM在价值对齐方面依赖粗粒度的国家标签,忽略了国家内部的价值异质性,导致对齐效果不佳。
- DVMap框架通过多维度人口统计约束识别高共识价值偏好群体,并构建高质量的价值对齐语料库。
- 实验结果表明,DVMap在跨人口统计测试中超越了DeepSeek-v3.2,展示了强大的泛化性和鲁棒性。
📝 摘要(中文)
当前的大型语言模型(LLMs)通常依赖于粗粒度的国家标签来进行多元价值对齐。然而,这种宏观层面的监督往往掩盖了国家内部的价值异质性,导致对齐效果不佳。本文认为,解决这一限制需要从国家标签转向多维度的人口统计约束,从而识别出具有可预测、高共识价值偏好的群体。为此,我们提出了DVMap(高共识人口统计-价值映射),一个用于细粒度多元价值对齐的框架。该框架首先提出了一种人口统计原型提取策略,通过严格保留在相同人口统计条件下具有一致价值偏好的受访者,从世界价值观调查(WVS)中构建了一个包含56,152个样本的高质量价值对齐语料库。在此语料库上,我们引入了一种结构化的思维链(CoT)机制,显式地引导LLMs推理人口统计-价值相关性。随后,我们采用群体相对策略优化(GRPO)来实现价值分布的自适应锚定。为了严格评估泛化能力,我们进一步建立了一个包含21,553个样本的三重泛化基准(跨人口统计、跨国家和跨价值)。实验结果表明,DVMap有效地学习了从人口统计到价值的多样映射,表现出强大的泛化性和鲁棒性。在跨人口统计测试中,Qwen3-8B-DVMap实现了48.6%的准确率,超过了先进的开源LLM DeepSeek-v3.2 (45.1%)。
🔬 方法详解
问题定义:现有大型语言模型在进行价值对齐时,主要依赖于国家层面的标签,这种粗粒度的划分方式无法捕捉到同一国家内部不同人群的价值差异。因此,如何实现更细粒度的价值对齐,从而更好地适应不同人群的价值偏好,是一个亟待解决的问题。现有方法的痛点在于无法有效处理国家内部的价值异质性。
核心思路:DVMap的核心思路是通过人口统计信息来更精确地刻画人群的价值偏好。不同于直接使用国家标签,DVMap利用多维度的人口统计特征(如年龄、性别、教育程度等)来识别具有相似价值取向的群体。这种方法假设在相同人口统计特征下的人群,其价值偏好具有更高的共识性。通过建立人口统计特征与价值偏好之间的映射关系,可以实现更细粒度的价值对齐。
技术框架:DVMap框架主要包含三个阶段:1) 人口统计原型提取:从世界价值观调查(WVS)中提取具有高共识价值偏好的人群样本,构建高质量的价值对齐语料库。2) 结构化思维链(CoT):引导LLMs学习人口统计特征与价值偏好之间的相关性,通过显式推理过程提高模型的理解能力。3) 群体相对策略优化(GRPO):自适应地调整价值分布,使模型更好地适应不同人群的价值偏好。
关键创新:DVMap最重要的技术创新点在于其细粒度的价值对齐方法。与传统的基于国家标签的方法相比,DVMap利用多维度的人口统计特征来更精确地刻画人群的价值偏好,从而实现了更精细的价值对齐。此外,结构化CoT和GRPO的引入进一步提高了模型的学习能力和泛化性能。
关键设计:在人口统计原型提取阶段,论文严格筛选具有一致价值偏好的受访者,确保语料库的质量。在结构化CoT阶段,论文设计了特定的提示模板,引导LLMs进行人口统计-价值相关性的推理。在GRPO阶段,论文设计了特定的奖励函数,鼓励模型生成符合人群价值偏好的内容。具体的参数设置和网络结构细节在论文中有详细描述。
🖼️ 关键图片
📊 实验亮点
实验结果表明,DVMap在三重泛化基准测试中表现出色。在跨人口统计测试中,Qwen3-8B-DVMap实现了48.6%的准确率,超过了先进的开源LLM DeepSeek-v3.2 (45.1%)。这表明DVMap能够有效地学习从人口统计到价值的多样映射,并具有强大的泛化性和鲁棒性。实验结果验证了DVMap在细粒度价值对齐方面的有效性。
🎯 应用场景
DVMap的研究成果可以应用于多个领域,例如个性化推荐系统、文化敏感型对话系统、以及负责任的人工智能开发。通过理解不同人群的价值偏好,可以构建更加公平、公正、符合伦理道德的人工智能系统。此外,该研究还可以促进跨文化交流和理解,减少因文化差异而产生的误解和冲突。
📄 摘要(原文)
Current Large Language Models (LLMs) typically rely on coarse-grained national labels for pluralistic value alignment. However, such macro-level supervision often obscures intra-country value heterogeneity, yielding a loose alignment. We argue that resolving this limitation requires shifting from national labels to multi-dimensional demographic constraints, which can identify groups with predictable, high-consensus value preference. To this end, we propose DVMap (High-Consensus Demographic-Value Mapping), a framework for fine-grained pluralistic value alignment. In this framework, we first present a demographic archetype extraction strategy to construct a high-quality value alignment corpus of 56,152 samples from the World Values Survey (WVS) by strictly retaining respondents with consistent value preferences under identical demographics. Over this corpus, we introduce a Structured Chain-of-Thought (CoT) mechanism that explicitly guides LLMs to reason about demographic-value correlations. Subsequently, we employ Group Relative Policy Optimization (GRPO) to achieve adaptive anchoring of value distributions. To rigorously evaluate generalization, we further establish a triple-generalization benchmark (spanning cross-demographic, cross-country, and cross-value) comprising 21,553 samples. Experimental results demonstrate that DVMap effectively learns the manifold mapping from demographics to values, exhibiting strong generalization and robustness. On cross-demographic tests, Qwen3-8B-DVMap achieves 48.6% accuracy, surpassing the advanced open-source LLM DeepSeek-v3.2 (45.1%). The source code and dataset are available at https://github.com/EnlightenedAI/DVMap.