CoMAI: A Collaborative Multi-Agent Framework for Robust and Equitable Interview Evaluation

📄 arXiv: 2603.16215v1 📥 PDF

作者: Gengxin Sun, Ruihao Yu, Liangyi Yin, Yunqi Yang, Bin Zhang, Zhiwei Xu

分类: cs.MA, cs.AI

发布日期: 2026-03-17

备注: Gengxin Sun and Ruihao Yu contributed equally to this research. Bin Zhang and Zhiwei Xu are the corresponding authors. 11 pages, 6 figures


💡 一句话要点

CoMAI:用于稳健和公平面试评估的协同多智能体框架

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多智能体系统 面试评估 大型语言模型 鲁棒性 公平性 任务分解 有限状态机

📋 核心要点

  1. AI面试评估面临鲁棒性和公平性挑战,现有单体LLM系统易受攻击且存在主观偏见。
  2. CoMAI采用模块化多智能体架构,通过任务分解和协同工作,提升安全性和评估质量。
  3. 实验表明,CoMAI在准确率、召回率和候选人满意度方面均表现出色,验证了其有效性。

📝 摘要(中文)

本文提出CoMAI,一个通用的多智能体面试框架,旨在应对AI驱动评估中保证稳健性和公平性的挑战。与基于大型语言模型(LLM)的单体系统不同,CoMAI采用模块化的任务分解架构,并通过中心化的有限状态机进行协调。该系统包含四个专门的智能体:问题生成、安全、评分和总结。这些智能体协同工作,提供多层安全防御以抵御提示注入,支持具有自适应难度调整的多维度评估,并实现基于规则的结构化评分,从而减少主观偏差。实验结果表明,CoMAI实现了90.47%的准确率,83.33%的召回率和84.41%的候选人满意度。这些结果表明,CoMAI是AI驱动面试评估的一种稳健、公平和可解释的范例。

🔬 方法详解

问题定义:论文旨在解决AI驱动面试评估中存在的鲁棒性和公平性问题。现有方法,特别是基于单体大型语言模型(LLM)的系统,容易受到提示注入攻击,并且评估过程可能存在主观偏见,缺乏透明度和可解释性。此外,现有系统在难度调整和多维度评估方面也存在局限性。

核心思路:CoMAI的核心思路是将面试评估任务分解为多个模块化的子任务,并为每个子任务设计专门的智能体。这些智能体通过协同工作,共同完成面试评估任务。这种模块化设计提高了系统的鲁棒性、安全性和可解释性,并允许进行多维度评估和自适应难度调整。

技术框架:CoMAI的整体架构包括四个主要智能体:问题生成智能体、安全智能体、评分智能体和总结智能体。这些智能体由一个中心化的有限状态机进行协调。问题生成智能体负责生成面试问题,安全智能体负责检测和防御提示注入攻击,评分智能体负责根据预定义的规则对候选人的回答进行评分,总结智能体负责生成面试总结报告。

关键创新:CoMAI的关键创新在于其多智能体协同框架,它将复杂的面试评估任务分解为多个独立的子任务,并为每个子任务设计专门的智能体。这种模块化设计提高了系统的鲁棒性、安全性和可解释性。此外,CoMAI还采用了基于规则的结构化评分方法,减少了主观偏见。

关键设计:CoMAI使用有限状态机来管理智能体之间的交互和状态转换。安全智能体采用多层防御机制来检测和防御提示注入攻击,包括输入验证、语义分析和行为监控。评分智能体使用预定义的评分规则和权重来计算候选人的得分。难度调整机制根据候选人的表现动态调整问题的难度。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

CoMAI在实验中表现出色,实现了90.47%的准确率和83.33%的召回率,显著优于传统的单体LLM系统。此外,候选人对CoMAI的满意度达到84.41%,表明该系统在用户体验方面也具有优势。这些结果证明了CoMAI在AI驱动面试评估方面的有效性和潜力。

🎯 应用场景

CoMAI可应用于各种AI驱动的面试评估场景,例如招聘、教育和职业发展。它可以提高评估的效率、公平性和透明度,并为候选人提供个性化的反馈。未来,CoMAI可以扩展到其他类型的评估任务,例如绩效评估和技能评估,并与其他AI系统集成,以提供更全面的解决方案。

📄 摘要(原文)

Ensuring robust and fair interview assessment remains a key challenge in AI-driven evaluation. This paper presents CoMAI, a general-purpose multi-agent interview framework designed for diverse assessment scenarios. In contrast to monolithic single-agent systems based on large language models (LLMs), CoMAI employs a modular task-decomposition architecture coordinated through a centralized finite-state machine. The system comprises four agents specialized in question generation, security, scoring, and summarization. These agents work collaboratively to provide multi-layered security defenses against prompt injection, support multidimensional evaluation with adaptive difficulty adjustment, and enable rubric-based structured scoring that reduces subjective bias. Experimental results demonstrate that CoMAI achieved 90.47% accuracy, 83.33% recall, and 84.41% candidate satisfaction. These results highlight CoMAI as a robust, fair, and interpretable paradigm for AI-driven interview assessment.