LoCar: Localization-Aware Evaluation of In-Vehicle Assistants through Fine-Grained Sociolinguistic Control

📄 arXiv: 2605.21086v1 📥 PDF

作者: Seogyeong Jeong, Kiwoong Park, Seyoung Song, Eunsu Kim, Ken E. Friedl, Jaeho Kim, Alice Oh

分类: cs.CL

发布日期: 2026-05-20

备注: To appear in ACL 2026 Industry Track


💡 一句话要点

LoCar:通过细粒度社会语言控制,实现车载助手本地化感知评估

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 车载助手 本地化评估 社会语言控制 韩语敬语 大型语言模型

📋 核心要点

  1. 现有车载助手评估缺乏针对特定语言和文化背景的细粒度评估标准,难以准确衡量模型在实际部署中的性能。
  2. LoCar框架通过引入社会语言控制,特别是韩语敬语的使用,来评估车载助手在本地化场景下的表现。
  3. 实验表明,现有LLM在韩语敬语控制和战略性对话方面表现不足,突出了本地化评估的重要性。

📝 摘要(中文)

大型语言模型(LLM)越来越多地被集成到车载对话系统中,但由于缺乏针对实际部署需求的领域特定评估标准,识别最佳模型仍然具有挑战性。本文提出了一种新颖的车载助手评估框架,特别关注韩语本地化。我们的实证分析揭示了模型行为中的显著模式。首先,当前LLM中细粒度的韩语敬语控制仍然不稳定,表明在本地化设置中必须明确评估精确的语音级别实现。其次,模型在诸如澄清和主动性等战略性对话指标中表现较弱。我们的分析表明,这源于这些任务固有的主观复杂性,我们的框架采用保守的评估立场以优先考虑可靠性。总之,我们的发现强调,汽车人工智能必须超越通用能力,转向精确的语言定制和可靠的、面向安全的交互管理。

🔬 方法详解

问题定义:现有车载助手评估方法缺乏对特定语言(如韩语)中细粒度社会语言因素(如敬语)的考量,导致评估结果与实际用户体验存在差距。此外,现有方法在评估澄清、主动性等战略性对话能力时,容易受到主观因素的影响,缺乏可靠性。

核心思路:LoCar框架的核心思路是通过引入细粒度的社会语言控制,模拟真实的车载对话场景,从而更准确地评估车载助手在特定语言和文化背景下的表现。同时,采用保守的评估策略,降低主观因素对评估结果的影响,提高评估的可靠性。

技术框架:LoCar框架包含以下主要模块:1) 对话场景生成模块:根据车载环境和用户需求,生成包含不同社会语言因素(如敬语)的对话场景。2) 模型响应生成模块:利用待评估的LLM生成对对话场景的响应。3) 评估模块:根据预定义的评估指标,对模型生成的响应进行评估。评估指标包括语言准确性、敬语使用正确性、澄清能力、主动性等。

关键创新:LoCar框架的关键创新在于:1) 引入了细粒度的社会语言控制,能够更准确地评估车载助手在特定语言和文化背景下的表现。2) 采用保守的评估策略,降低主观因素对评估结果的影响,提高评估的可靠性。3) 提出了针对车载场景的特定评估指标,如敬语使用正确性、澄清能力、主动性等。

关键设计:在对话场景生成模块中,需要仔细设计对话场景,确保场景的真实性和多样性,并包含不同程度的敬语使用需求。在评估模块中,需要定义清晰的评估标准,并采用自动化或半自动化的评估方法,以提高评估效率和一致性。对于战略性对话能力的评估,可以采用多轮对话的方式,并引入人工评估,以提高评估的准确性。

📊 实验亮点

实验结果表明,现有的LLM在韩语敬语控制方面表现不稳定,在澄清和主动性等战略性对话指标方面表现较弱。这些发现强调了在车载助手评估中考虑本地化因素的重要性,并为未来的模型优化提供了方向。

🎯 应用场景

该研究成果可应用于车载语音助手的开发和评估,帮助开发者选择和优化更适合特定语言和文化背景的车载助手模型。此外,该框架也可推广到其他需要本地化和个性化的对话系统,如智能客服、教育机器人等,具有广泛的应用前景和实际价值。

📄 摘要(原文)

While Large Language Models (LLMs) are increasingly integrated into in-vehicle conversational systems, identifying the optimal model remains challenging due to the lack of domain-specific evaluation standards tailored to real-world deployment requirements. In this paper, we propose a novel evaluation framework for in-vehicle assistants, with a particular focus on Korean-language localization. Our empirical analysis reveals notable patterns in model behavior. First, fine-grained Korean honorific control remains unstable in current LLMs, indicating that precise speech-level realization must be explicitly evaluated in localization settings. Second, models exhibit weaker performance in strategic conversational metrics like clarification and proactivity. Our analysis suggests this stems from the inherent subjective complexity of these tasks, where our framework adopts a conservative evaluation stance to prioritize reliability. Together, our findings underscore that automotive AI must move beyond general competence toward precise linguistic tailoring and reliable, safety-oriented interaction management.