CMT-Bench: Cricket Multi-Table Generation Benchmark for Probing Robustness in Large Language Models

📄 arXiv: 2510.18173v1 📥 PDF

作者: Ritam Upadhyay, Naman Ahuja, Rishabh Baral, Aparna Garimella, Vivek Gupta

分类: cs.CL

发布日期: 2025-10-20


💡 一句话要点

CMT-Bench:板球多表格生成基准,用于评估大语言模型的鲁棒性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 文本到表格生成 大语言模型 鲁棒性评估 动态环境 板球评论

📋 核心要点

  1. 现有文本到表格系统依赖大量prompt工程或代码可解析格式的迭代事件提取,计算成本高昂,且模型推理过程不透明。
  2. CMT-Bench通过消融抽取线索、添加时间前缀和扰动实体形式,从多个维度评估LLM在动态表格生成中的鲁棒性。
  3. 实验表明,当前LLM在动态文本到表格生成任务中表现脆弱,鲁棒性评估是开发高效可扩展方法的前提。

📝 摘要(中文)

本文提出CMT-Bench,一个诊断基准,它基于实时板球评论构建,要求在密集、规则驱动的策略下,跨两个不断演变的模式动态生成表格。CMT-Bench旨在通过三个语义保持维度来探测鲁棒性:(i)抽取线索消融,以区分抽取捷径和状态跟踪;(ii)时间前缀,以测试长上下文稳定性;(iii)实体形式扰动(匿名化、分布外替换、角色纠缠释义),以评估对表面变化的敏感性。在各种长上下文最先进的LLM中,我们发现没有抽取摘要时性能大幅下降,输入长度单调退化,以及在实体形式变化下准确率持续下降。补充分布测试证实了数字错误模式的显著变化,表明推理漂移而非仅仅是噪声。我们的结果表明,当前的LLM在动态文本到表格生成中是脆弱的,这促使将鲁棒性优先评估作为开发用于此任务的高效且可扩展方法的前提。

🔬 方法详解

问题定义:现有的大语言模型驱动的文本到表格(T2T)系统,为了提升性能,通常依赖于复杂的prompt工程或者迭代的事件抽取,这些方法计算成本高昂,并且掩盖了模型在时间演进的叙述中进行推理和总结关键信息的能力。因此,需要一个更具诊断性的基准来评估模型在动态环境下的鲁棒性。

核心思路:CMT-Bench的核心思路是通过构建一个基于实时板球评论的动态表格生成任务,并引入三种语义保持的扰动方式,来系统地评估大语言模型在面对抽取线索缺失、长上下文和实体形式变化时的鲁棒性。这种方法旨在揭示模型是否真正理解了动态信息,还是仅仅依赖于表面线索。

技术框架:CMT-Bench的整体框架包括以下几个关键部分:1) 数据集构建:基于实时板球评论构建数据集,包含两个不断演变的表格模式。2) 评估维度:引入三种语义保持的扰动方式,包括抽取线索消融、时间前缀和实体形式扰动。3) 模型评估:使用各种长上下文的先进LLM进行实验,并分析模型在不同扰动下的性能表现。4) 分布测试:通过分布测试来分析数字错误模式的变化,以判断是否存在推理漂移。

关键创新:CMT-Bench的关键创新在于其诊断性设计,它不仅仅关注模型的整体性能,更关注模型在不同维度上的鲁棒性。通过引入语义保持的扰动,CMT-Bench能够更深入地了解模型的推理过程,并揭示模型在动态环境下的脆弱性。此外,该基准基于真实的板球评论数据,更贴近实际应用场景。

关键设计:CMT-Bench的关键设计包括:1) 抽取线索消融:通过移除抽取式摘要,评估模型是否依赖于抽取捷径。2) 时间前缀:通过添加时间前缀,测试模型在长上下文下的稳定性。3) 实体形式扰动:通过匿名化、分布外替换和角色纠缠释义,评估模型对表面变化的敏感性。这些设计旨在系统地评估模型在不同维度上的鲁棒性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,当前的大语言模型在CMT-Bench基准上表现出明显的脆弱性。在没有抽取摘要的情况下,模型性能大幅下降;随着输入长度的增加,性能单调退化;在实体形式发生变化时,准确率持续下降。分布测试也证实了数字错误模式的显著变化,表明存在推理漂移。

🎯 应用场景

CMT-Bench的研究成果可应用于开发更鲁棒、更可靠的文本到表格生成系统,尤其是在需要处理动态、长上下文信息的场景中,例如金融报告生成、新闻摘要、体育赛事分析等。该基准的评估方法也可以推广到其他自然语言处理任务中,促进相关领域的研究进展。

📄 摘要(原文)

LLM Driven text-to-table (T2T) systems often rely on extensive prompt-engineering or iterative event extraction in code-parsable formats, which boosts scores but are computationally expensive and obscure how models actually reason over temporal evolving narratives to summarise key information. We present CMT-Bench, a diagnostic benchmark built from live cricket commentary that requires dynamic table generation across two evolving schemas under a dense, rule-governed policy. CMT-Bench is designed to probe robustness via three semantics-preserving dimensions: (i) extractive-cue ablation to separate extractive shortcuts from state tracking, (ii) temporal prefixing to test long-context stability, and (iii) entity-form perturbations (anonymization, outof-distribution substitutions, role-entangling paraphrases) to assess sensitivity to surface variation. Across diverse long-context stateof-the-art LLMs, we find large drops without extractive summaries, monotonic degradation with input length, and consistent accuracy drop under entity-form changes. Complementary distributional tests confirm significant shifts in numeric error patterns, indicating drift in reasoning rather than mere noise. Our results show that current LLMs are brittle in dynamic Textto-table generation, motivating robustness-first evaluation as a prerequisite for developing efficient and scalable approaches for this task.