Chain of Preference Optimization: Improving Chain-of-Thought Reasoning in LLMs

📄 arXiv: 2406.09136v2 📥 PDF

作者: Xuan Zhang, Chao Du, Tianyu Pang, Qian Liu, Wei Gao, Min Lin

分类: cs.CL, cs.LG

发布日期: 2024-06-13 (更新: 2024-10-31)

备注: NeurIPS 2024

🔗 代码/项目: GITHUB


💡 一句话要点

提出链式偏好优化(CPO)以提升LLM的CoT推理能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 链式思考 偏好优化 大型语言模型 树状搜索 微调

📋 核心要点

  1. CoT推理路径并非总是最优,限制了LLM在复杂问题上的解决能力。
  2. CPO利用ToT搜索树中的偏好信息,微调LLM,优化CoT推理的每一步。
  3. 实验表明,CPO在多种复杂任务上显著提升了LLM的性能,且推理效率更高。

📝 摘要(中文)

本文提出了一种链式偏好优化(CPO)方法,旨在提升大型语言模型(LLM)的链式思考(CoT)推理能力。CoT解码虽然能让LLM生成显式的逻辑推理路径,但这些路径并非总是最优的。树状思考(ToT)通过树搜索探索推理空间,寻找更优路径,但计算复杂度高。CPO利用ToT构建的搜索树,通过微调LLM,使CoT达到与ToT相似甚至更好的性能,同时避免了高昂的推理负担。实验结果表明,CPO显著提升了LLM在问答、事实核查和算术推理等复杂问题上的性能。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)在使用链式思考(CoT)进行推理时,生成的推理路径并非总是最优的问题。现有的树状思考(ToT)方法虽然能通过搜索找到更优路径,但计算复杂度过高,推理负担大。因此,如何在保证推理性能的同时,降低计算成本,是本文要解决的核心问题。

核心思路:论文的核心思路是利用ToT方法构建的搜索树中蕴含的偏好信息,来指导LLM的CoT推理过程。具体来说,就是通过微调LLM,使其生成的CoT推理路径的每一步都与ToT搜索树中的更优路径对齐。这样,LLM就能在不进行复杂搜索的情况下,生成更优的推理路径。

技术框架:CPO方法的技术框架主要包含两个阶段:首先,使用ToT方法对问题进行推理,构建一个搜索树,记录不同推理路径的优劣。然后,使用搜索树中的偏好信息,对LLM进行微调。微调的目标是使LLM生成的CoT推理路径与ToT搜索树中的更优路径尽可能一致。

关键创新:CPO方法的关键创新在于将ToT的搜索结果转化为可用于微调LLM的偏好信息。通过这种方式,CPO方法能够有效地利用ToT的优势,同时避免其高昂的计算成本。与直接使用ToT进行推理相比,CPO方法在推理效率上具有显著优势。

关键设计:CPO的关键设计在于如何定义和利用搜索树中的偏好信息。论文中,偏好信息是通过比较不同推理路径的得分来获得的。具体来说,对于搜索树中的每个节点,选择得分最高的路径作为最优路径,然后使用这个最优路径来指导LLM的微调。损失函数的设计目标是使LLM生成的CoT推理路径与最优路径之间的差异最小化。具体的损失函数形式在论文中有详细描述,可能涉及到交叉熵损失或类似的序列生成损失函数。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,CPO方法在多种复杂问题上显著提升了LLM的性能。例如,在某些问答任务上,CPO方法能够将LLM的准确率提升超过10%。与直接使用ToT方法相比,CPO方法在保持甚至提升性能的同时,显著降低了推理时间。这些结果表明,CPO方法是一种有效的提升LLM推理能力的方法。

🎯 应用场景

CPO方法可以广泛应用于需要复杂推理的自然语言处理任务中,例如问答系统、知识图谱推理、代码生成等。该方法能够提升LLM在这些任务上的性能,并降低推理成本,具有重要的实际应用价值。未来,CPO方法还可以与其他技术相结合,例如强化学习、元学习等,进一步提升LLM的推理能力。

📄 摘要(原文)

The recent development of chain-of-thought (CoT) decoding has enabled large language models (LLMs) to generate explicit logical reasoning paths for complex problem-solving. However, research indicates that these paths are not always deliberate and optimal. The tree-of-thought (ToT) method employs tree-searching to extensively explore the reasoning space and find better reasoning paths that CoT decoding might overlook. This deliberation, however, comes at the cost of significantly increased inference complexity. In this work, we demonstrate that fine-tuning LLMs leveraging the search tree constructed by ToT allows CoT to achieve similar or better performance, thereby avoiding the substantial inference burden. This is achieved through Chain of Preference Optimization (CPO), where LLMs are fine-tuned to align each step of the CoT reasoning paths with those of ToT using the inherent preference information in the tree-search process. Extensive experimental results show that CPO significantly improves LLM performance in solving a variety of complex problems, including question answering, fact verification, and arithmetic reasoning, demonstrating its effectiveness. Our code is available at https://github.com/sail-sg/CPO.