COIG-P: A High-Quality and Large-Scale Chinese Preference Dataset for Alignment with Human Values

📄 arXiv: 2504.05535v1 📥 PDF

作者: M-A-P Team, Siwei Wu, Jincheng Ren, Xinrun Du, Shuyue Guo, Xingwei Qu, Yiming Liang, Jie Liu, Yunwen Li, Tianyu Zheng, Boyu Feng, Huaqing Yuan, Zenith Wang, Jiaheng Liu, Wenhao Huang, Chenglin Cai, Haoran Que, Jian Yang, Yuelin Bai, Zekun Moore Wang, Zhouliang Yu, Qunshu Lin, Ding Pan, Yuchen Jiang, Tiannan Wang, Wangchunshu Zhou, Shenzhi Wang, Xingyuan Bu, Minghao Liu, Guoyin Wang, Ge Zhang, Chenghua Lin

分类: cs.CL

发布日期: 2025-04-07

🔗 代码/项目: GITHUB


💡 一句话要点

COIG-P:一个高质量、大规模的中文偏好数据集,用于对齐人类价值观

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 中文偏好数据集 大型语言模型 人类价值观对齐 奖励模型 自动化标注

📋 核心要点

  1. 现有中文偏好数据集规模小、领域窄、缺乏验证,且依赖人工标注,限制了LLM与人类价值观对齐的研究。
  2. 提出基于LLM的无人工干预的中文偏好数据集标注流程,自动生成并评分选择-拒绝响应对,构建大规模数据集。
  3. COIG-P显著优于其他中文偏好数据集,并为Qwen2/2.5等模型带来2%-12%的性能提升,验证了数据集的有效性。

📝 摘要(中文)

为了使大型语言模型(LLMs)与人类偏好对齐,本文提出了COIG-P(中文开放指令通用-偏好),这是一个高质量、大规模的中文偏好数据集。现有的中文偏好数据集受限于规模小、领域覆盖窄以及缺乏严格的数据验证。此外,对指令和响应标签的人工标注严重限制了数据集的可扩展性。为了解决这些挑战,本文设计了一个基于LLM的中文偏好数据集标注流程,无需人工干预。具体来说,本文爬取并仔细筛选了9.2万个高质量的中文查询,并使用15个主流LLM生成和评分选择-拒绝响应对。COIG-P包含100.9万个中文偏好对,涵盖聊天、代码、数学、逻辑、小说和角色扮演等6个不同的领域。此外,为了降低使用LLM进行评分的开销,本文训练了一个80亿参数的中文奖励模型(CRM),并精心构建了一个中文奖励基准(CRBench)。基于AlignBench的评估结果表明,COIG-P显著优于其他中文偏好数据集,并为Qwen2/2.5和Infinity-Instruct-3M-0625模型系列带来了2%到12%的显著性能提升。CRBench上的结果表明,本文的CRM具有强大而稳健的评分能力。本文将其应用于过滤COIG-P测试集中的选择-拒绝响应对,实验表明,在保持效率和成本效益的同时,它在识别低质量样本方面与GPT-4o相当。代码和数据已发布在https://github.com/multimodal-art-projection/COIG-P。

🔬 方法详解

问题定义:现有中文偏好数据集规模有限,领域覆盖不全面,数据质量缺乏严格验证,并且依赖人工标注,成本高昂且难以扩展。这阻碍了大型语言模型与人类价值观的有效对齐。因此,需要一种高效、可扩展的方法来构建高质量的中文偏好数据集。

核心思路:利用大型语言模型自身的能力,设计一个自动化的数据标注流程,无需人工干预即可生成和评分选择-拒绝响应对。通过大规模的LLM生成和筛选,可以有效降低人工成本,并提高数据集的规模和质量。同时,训练一个中文奖励模型(CRM)来进一步提升评分效率和降低计算开销。

技术框架:整体流程包括以下几个阶段:1) 数据爬取与过滤:从互联网上爬取高质量的中文查询,并进行初步的过滤和清洗。2) LLM响应生成:使用多个主流LLM(如Qwen、Baichuan等)对每个查询生成多个响应。3) 选择-拒绝对构建:对于每个查询,从生成的响应中选择一个“选择”响应和一个“拒绝”响应,构成一个偏好对。4) LLM评分:使用多个LLM对每个选择-拒绝对进行评分,得到一个偏好得分。5) 数据集构建:根据LLM的评分,筛选出高质量的偏好对,构建最终的COIG-P数据集。6) CRM训练与评估:使用COIG-P数据集训练一个中文奖励模型(CRM),并使用CRBench进行评估。

关键创新:1) 无人工干预的自动化标注流程:完全依赖LLM自身的能力进行数据标注,无需人工干预,大大降低了成本并提高了可扩展性。2) 大规模高质量数据集:构建了包含100.9万个中文偏好对的COIG-P数据集,涵盖多个领域,数据质量高。3) 中文奖励模型(CRM):训练了一个高效的CRM,可以用于快速评估响应的质量,降低了计算开销。

关键设计:1) 查询筛选:对爬取的查询进行过滤,去除低质量和不相关的查询。2) 响应生成:使用多个LLM生成响应,增加多样性。3) 选择-拒绝对构建:采用不同的策略来选择“选择”和“拒绝”响应,例如基于LLM评分或人工规则。4) LLM评分:使用多个LLM对每个偏好对进行评分,并进行聚合,以提高评分的准确性。5) CRM训练:使用COIG-P数据集训练CRM,采用合适的损失函数和优化算法。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

COIG-P数据集在AlignBench上显著优于其他中文偏好数据集,为Qwen2/2.5和Infinity-Instruct-3M-0625模型系列带来了2%到12%的性能提升。此外,训练的中文奖励模型(CRM)在CRBench上表现出强大的评分能力,并且在识别低质量样本方面与GPT-4o相当,同时保持了更高的效率和更低的成本。

🎯 应用场景

COIG-P数据集可用于训练和评估中文大型语言模型,使其更好地对齐人类价值观和偏好。该数据集能够提升模型在对话、代码生成、数学推理等任务中的表现,并可应用于智能客服、内容创作、教育辅导等多个领域,具有重要的实际应用价值和广泛的未来影响。

📄 摘要(原文)

Aligning large language models (LLMs) with human preferences has achieved remarkable success. However, existing Chinese preference datasets are limited by small scale, narrow domain coverage, and lack of rigorous data validation. Additionally, the reliance on human annotators for instruction and response labeling significantly constrains the scalability of human preference datasets. To address these challenges, we design an LLM-based Chinese preference dataset annotation pipeline with no human intervention. Specifically, we crawled and carefully filtered 92k high-quality Chinese queries and employed 15 mainstream LLMs to generate and score chosen-rejected response pairs. Based on it, we introduce COIG-P (Chinese Open Instruction Generalist - Preference), a high-quality, large-scale Chinese preference dataset, comprises 1,009k Chinese preference pairs spanning 6 diverse domains: Chat, Code, Math, Logic, Novel, and Role. Building upon COIG-P, to reduce the overhead of using LLMs for scoring, we trained a 8B-sized Chinese Reward Model (CRM) and meticulously constructed a Chinese Reward Benchmark (CRBench). Evaluation results based on AlignBench \citep{liu2024alignbenchbenchmarkingchinesealignment} show that that COIG-P significantly outperforms other Chinese preference datasets, and it brings significant performance improvements ranging from 2% to 12% for the Qwen2/2.5 and Infinity-Instruct-3M-0625 model series, respectively. The results on CRBench demonstrate that our CRM has a strong and robust scoring ability. We apply it to filter chosen-rejected response pairs in a test split of COIG-P, and our experiments show that it is comparable to GPT-4o in identifying low-quality samples while maintaining efficiency and cost-effectiveness. Our codes and data are released in https://github.com/multimodal-art-projection/COIG-P.