TRACT: Regression-Aware Fine-tuning Meets Chain-of-Thought Reasoning for LLM-as-a-Judge

📄 arXiv: 2503.04381v2 📥 PDF

作者: Cheng-Han Chiang, Hung-yi Lee, Michal Lukasik

分类: cs.CL

发布日期: 2025-03-06 (更新: 2025-06-06)

备注: ACL 2025 camera-ready Codes and models are available at https://github.com/d223302/TRACT


💡 一句话要点

TRACT:融合回归感知微调与思维链推理,提升LLM作为裁判的性能

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: LLM-as-a-judge 思维链推理 回归感知微调 文本评估 数值预测

📋 核心要点

  1. 现有LLM-as-a-judge方法忽略了评分预测的数值特性,直接使用交叉熵损失进行微调,效果受限。
  2. TRACT方法结合思维链推理和回归感知微调,通过两阶段训练,提升LLM在数值评分任务中的表现。
  3. 实验结果表明,TRACT在多个数据集上显著优于现有方法,消融实验验证了各组件的有效性。

📝 摘要(中文)

LLM-as-a-judge范式利用大型语言模型(LLMs)进行自动文本评估,其中LLM根据评分标准为输入文本分配一个数值评估。现有的LLM-as-a-judge方法使用交叉熵(CE)损失进行微调,忽略了分数预测的数值特性。最近的工作通过回归感知微调解决了LLM微调在数值预测方面的局限性,但没有考虑思维链(CoT)推理进行分数预测。在本文中,我们介绍TRACT(Two-stage Regression-Aware fine-tuning with CoT),一种将CoT推理与回归感知训练相结合的方法。TRACT包含两个阶段:首先,对种子LLM进行微调以生成CoT,作为第二阶段微调的监督信号。TRACT的训练目标结合了用于学习CoT推理能力的CE损失和用于分数预测的回归感知损失。在四个LLM-as-a-judge数据集和两个LLM上的实验表明,TRACT显著优于现有方法。大量的消融研究验证了TRACT中每个组件的重要性。

🔬 方法详解

问题定义:论文旨在解决LLM作为裁判时,现有方法无法有效利用评分数值信息以及缺乏思维链推理能力的问题。现有方法主要使用交叉熵损失进行微调,忽略了评分的数值特性,导致预测精度不高。同时,缺乏思维链推理使得LLM难以给出合理的评分依据。

核心思路:论文的核心思路是将思维链推理与回归感知微调相结合。首先,利用思维链生成评分依据,然后利用回归感知损失函数直接优化数值评分的预测,从而提升LLM作为裁判的性能。通过结合CoT推理和回归感知训练,模型能够更好地理解评分标准并给出准确的评分。

技术框架:TRACT方法包含两个阶段:第一阶段是CoT生成阶段,使用交叉熵损失微调LLM生成思维链;第二阶段是回归感知微调阶段,使用回归感知损失和交叉熵损失联合训练LLM,其中思维链作为监督信号。整体流程是先让LLM学会生成评分依据,再利用这些依据进行数值评分。

关键创新:TRACT的关键创新在于将CoT推理与回归感知微调相结合。传统的回归感知微调方法没有考虑思维链推理,而TRACT通过引入CoT推理,使得LLM能够更好地理解评分标准并给出合理的评分依据。同时,两阶段训练方式也保证了CoT生成的质量。

关键设计:TRACT的关键设计包括:1) 使用交叉熵损失训练CoT生成模型;2) 使用回归感知损失训练评分预测模型,回归感知损失的具体形式未知(论文未明确说明,原文只提到regression-aware loss,具体实现未知);3) 使用两阶段训练方式,保证CoT生成的质量和评分预测的准确性。具体参数设置未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,TRACT在四个LLM-as-a-judge数据集上显著优于现有方法。具体的性能提升数据未知(论文摘要未提供具体数值),但强调了TRACT在不同数据集和不同LLM上的泛化能力。消融研究验证了CoT推理和回归感知微调的有效性。

🎯 应用场景

该研究成果可应用于自动文本评估、论文评审、代码质量评估等领域。通过提升LLM作为裁判的性能,可以减少人工评估的成本和时间,提高评估效率和一致性。未来,该方法可以扩展到其他需要数值评分的任务中,例如产品评论分析、用户满意度调查等。

📄 摘要(原文)

The LLM-as-a-judge paradigm uses large language models (LLMs) for automated text evaluation, where a numerical assessment is assigned by an LLM to the input text following scoring rubrics. Existing methods for LLM-as-a-judge use cross-entropy (CE) loss for fine-tuning, which neglects the numeric nature of score prediction. Recent work addresses numerical prediction limitations of LLM fine-tuning through regression-aware fine-tuning, which, however, does not consider chain-of-thought (CoT) reasoning for score prediction. In this paper, we introduce TRACT (Two-stage Regression-Aware fine-tuning with CoT), a method combining CoT reasoning with regression-aware training. TRACT consists of two stages: first, seed LLM is fine-tuned to generate CoTs, which serve as supervision for the second stage fine-tuning. The training objective of TRACT combines the CE loss for learning the CoT reasoning capabilities, and the regression-aware loss for the score prediction. Experiments across four LLM-as-a-judge datasets and two LLMs show that TRACT significantly outperforms existing methods. Extensive ablation studies validate the importance of each component in TRACT.