HoWToBench: Holistic Evaluation for LLM's Capability in Human-level Writing using Tree of Writing
作者: Andrew Zhuoer Feng, Cunxiang Wang, Yu Luo, Lin Fan, Yilin Zhou, Zikang Wang, Xiaotao Gu, Jie Tang, Hongning Wang, Minlie Huang
分类: cs.CL
发布日期: 2026-04-21
备注: 49 pages, 6 figures, 19 tables, ACL 2026 main
💡 一句话要点
提出HoWToBench基准与Tree-of-Writing评估方法,解决LLM写作能力评估难题。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: LLM评估 写作评估 Tree-of-Writing 中文写作基准 HowToBench
📋 核心要点
- 现有LLM写作评估方法难以有效评估千字级开放写作,且LLM-as-a-judge方法在聚合子特征时存在隐式不一致性。
- 论文提出Tree-of-Writing (ToW)方法,通过树状结构显式建模子特征的聚合权重,解决评估不一致问题。
- 构建大规模中文写作基准HowToBench,实验表明ToW与人类判断高度相关,且对文本扰动具有鲁棒性。
📝 摘要(中文)
大型语言模型(LLM)写作能力的评估仍然是一个重大挑战,这归因于写作技能的多维度特性以及现有指标的局限性。传统基于参考的指标或现代LLM-as-a-judge方法无法充分评估LLM在千字级别和开放式写作中的表现。本文提出了Tree-of-Writing (ToW),以解决LLM-as-a-judge在文本评估中聚合所有子特征时经常发现的隐式不一致性。ToW通过显式建模子特征的聚合权重,采用树状结构的工作流程。同时,本文提出了HowToBench,这是一个大规模中文写作基准,包含12种类型和1302条指令,涵盖三个任务类别:上下文补全、大纲引导写作和开放式生成。ToW成功地减轻了偏差,与人类判断实现了0.93的皮尔逊相关系数。此外,我们发现基于重叠的文本生成指标和流行的LLM-as-a-judge实践容易受到文本扰动的影响,而ToW对它们具有鲁棒性。我们还发现,在Guide任务中,输入长度与内容相关分数之间存在负相关,表明它不能简单地通过输入侧的信息堆砌来改进。
🔬 方法详解
问题定义:现有的大型语言模型(LLM)写作能力评估方法存在局限性,尤其是在长文本和开放式写作场景下。传统的基于参考的指标(如BLEU、ROUGE)无法捕捉文本的流畅性、创造性和逻辑性等高层次特征。而新兴的LLM-as-a-judge方法,虽然能够评估更复杂的文本属性,但在聚合多个子特征(如连贯性、相关性等)时,往往存在隐式的不一致性,导致评估结果与人类判断存在偏差。此外,现有方法容易受到文本扰动的影响,缺乏鲁棒性。
核心思路:论文的核心思路是构建一个树状结构的评估框架Tree-of-Writing (ToW),显式地建模各个子特征之间的聚合权重。通过将写作质量分解为多个层次的子特征,并使用树状结构来表示这些特征之间的关系,ToW能够更准确地捕捉文本的整体质量。同时,通过显式地学习各个子特征的权重,ToW能够解决LLM-as-a-judge方法中存在的隐式不一致性问题,提高评估结果的准确性和可靠性。
技术框架:ToW的整体框架包含以下几个主要步骤:1) 将写作任务分解为多个子特征,例如主题相关性、逻辑连贯性、语言流畅性等。2) 构建一个树状结构,表示这些子特征之间的层次关系。树的叶节点对应于最细粒度的子特征,而根节点对应于整体的写作质量。3) 使用LLM-as-a-judge方法评估每个子特征的得分。4) 使用一个可学习的聚合函数,将子特征的得分自底向上地聚合,最终得到整体的写作质量得分。这个聚合函数可以是一个简单的加权平均,也可以是一个更复杂的神经网络。
关键创新:ToW最重要的技术创新点在于其树状结构的评估框架和显式的权重建模。与传统的LLM-as-a-judge方法相比,ToW能够更准确地捕捉文本的整体质量,并解决评估过程中存在的隐式不一致性问题。此外,ToW对文本扰动具有更强的鲁棒性,能够提供更可靠的评估结果。
关键设计:ToW的关键设计包括:1) 子特征的选取和分解,需要根据具体的写作任务进行设计,以确保能够全面地覆盖文本的各个方面。2) 树状结构的构建,需要根据子特征之间的关系进行设计,以确保能够准确地表示这些特征之间的层次关系。3) 聚合函数的选择和训练,需要根据具体的任务和数据进行选择和训练,以确保能够准确地聚合子特征的得分。
🖼️ 关键图片
📊 实验亮点
实验结果表明,ToW与人类判断的皮尔逊相关系数达到0.93,显著优于传统的基于重叠的文本生成指标和流行的LLM-as-a-judge方法。此外,ToW对文本扰动具有更强的鲁棒性,能够提供更可靠的评估结果。研究还发现,在Guide任务中,输入长度与内容相关分数之间存在负相关,表明简单地增加输入信息并不能有效提升写作质量。
🎯 应用场景
该研究成果可广泛应用于LLM写作能力的自动评估、写作教学辅助、内容生成质量控制等领域。通过更准确地评估LLM的写作能力,可以促进LLM在创意写作、新闻报道、文档撰写等方面的应用,并为LLM的持续改进提供有价值的反馈。
📄 摘要(原文)
Evaluating the writing capabilities of large language models (LLMs) remains a significant challenge due to the multidimensional nature of writing skills and the limitations of existing metrics. LLM's performance in thousand-words level and open-ended writing is inadequately assessed by traditional reference-based metrics or modern LLM-as-a-judge methods. We propose Tree-of-Writing (ToW), to resolve the implicit inconsistency often found when LLM-as-a-judge aggregates all sub-features in text evaluation. ToW incorporates a tree-structured workflow by explicitly modeling the aggregation weights of sub-features. We also present HowToBench, a large-scale Chinese writing benchmark encompassing 12 genres and 1302 instructions across three task categories: contextual completion, outline-guided writing, and open-ended generation. ToW successfully mitigates the biases, achieving a 0.93 Pearson correlation with human judgments. Furthermore, we detect that both overlap-based text generation metrics and popular LLM-as-a-judge practices are vulnerable to textual disturbances, while ToW is robust to them. We also uncover a negative correlation between input length and content-related scores in the Guide task, showcasing that it cannot be simply improved by input-side information piling.