Pragmatic Frames Evoked by Gestures: A FrameNet Brasil Approach to Multimodality in Turn Organization

作者: Helen de Andrade Abreu, Tiago Timponi Torrent, Ely Edison da Silva Matos

分类: cs.CL

发布日期: 2025-09-11

备注: Paper submitted to Language Sciences Journal

💡 一句话要点

提出基于FrameNet Brasil的多模态对话轮次组织建模框架

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态对话 对话轮次组织 语用框架 手势识别 FrameNet 人机交互 认知语言学

📋 核心要点

现有对话轮次组织研究缺乏对交互手势的深入编码，难以用于机器学习。
论文提出基于语用框架，关联语言和手势的多模态对话轮次组织建模框架。
通过Frame2数据集的实验，验证了手势在对话轮次中的作用，并发现了新的手势变体。

📝 摘要（中文）

本文提出了一个框架，用于通过语言和交互手势之间的关联来建模多模态对话轮次组织，该框架基于对交际者如何概念化和唤起语用框架的分析。为了提供分析的证据，我们开发了一种注释方法，用语用框架来丰富多模态数据集（已针对语义框架进行注释），该语用框架对对话轮次组织进行建模。尽管对话轮次组织已被来自不同领域的研究人员研究过，但具体的策略，尤其是交际者使用的手势，尚未被编码到可用于机器学习的数据集中。为了填补这一空白，我们使用用于轮次组织的手势注释丰富了Frame2数据集。Frame2数据集包含来自巴西电视剧Pedro Pelo Mundo的10集，这些剧集针对视频和文本中唤起的语义框架进行了注释。该数据集使我们能够密切观察交际者如何在实验室之外的场景中使用交互手势，据我们所知，这些场景以前未在相关文献中记录。我们的结果证实，参与面对面交谈的交际者使用手势作为传递、获取和保持对话轮次的工具，并且还揭示了一些以前未被记录的手势变体。我们认为，这些手势的使用源于语用框架的概念化，包括心理空间、混合和概念隐喻。此外，我们的数据表明，语用框架的注释有助于更深入地理解人类认知和语言。

🔬 方法详解

问题定义：论文旨在解决多模态对话中，如何利用手势信息来更准确地理解和建模对话轮次组织的问题。现有方法主要集中在语言层面，忽略了手势等非语言信息在对话中的重要作用，导致模型无法充分理解对话的动态过程。此外，缺乏包含手势标注的对话数据集，限制了相关研究的开展。

核心思路：论文的核心思路是将对话轮次组织视为语用框架的体现，通过分析交际者如何使用手势来唤起和传递这些框架，从而建立语言和手势之间的关联。这种方法基于认知语言学的理论，认为手势是概念隐喻和心理空间的具象化，能够反映交际者的意图和认知状态。

技术框架：论文的技术框架主要包括以下几个步骤：1) 选择并标注Frame2数据集，该数据集包含巴西电视剧的视频和文本，并已标注语义框架。2) 设计一套新的标注方法，用于标注数据集中与对话轮次组织相关的手势，例如传递、获取和保持轮次的手势。3) 分析标注后的数据，识别不同手势与语用框架之间的关联，并建立相应的模型。4) 验证模型的有效性，例如通过机器学习方法预测对话轮次的转移。

关键创新：论文的关键创新在于：1) 提出了基于语用框架的多模态对话轮次组织建模方法，将手势纳入对话理解的范畴。2) 构建了一个包含手势标注的对话数据集，为相关研究提供了数据基础。3) 发现了新的手势变体，并分析了它们在对话中的作用。

关键设计：论文的关键设计包括：1) 语用框架的定义和选择，需要根据具体的对话场景和任务进行调整。2) 手势标注的粒度和标准，需要保证标注的一致性和可靠性。3) 模型的设计，需要能够有效地捕捉语言和手势之间的关联，并预测对话轮次的转移。

📊 实验亮点

研究结果表明，交际者在面对面交谈中利用手势作为传递、获取和保持对话轮次的工具，并揭示了一些以前未被记录的手势变体。通过对Frame2数据集的分析，证实了语用框架的标注有助于更深入地理解人类认知和语言。

🎯 应用场景

该研究可应用于人机交互、虚拟助手、社交机器人等领域，提升机器理解人类对话意图的能力，实现更自然流畅的交互体验。例如，机器人可以通过识别用户的手势来判断其是否想要发言，从而避免打断对话。未来，该研究还可以扩展到其他非语言行为的分析，例如面部表情和肢体语言。

📄 摘要（原文）

This paper proposes a framework for modeling multimodal conversational turn organization via the proposition of correlations between language and interactive gestures, based on analysis as to how pragmatic frames are conceptualized and evoked by communicators. As a means to provide evidence for the analysis, we developed an annotation methodology to enrich a multimodal dataset (annotated for semantic frames) with pragmatic frames modeling conversational turn organization. Although conversational turn organization has been studied by researchers from diverse fields, the specific strategies, especially gestures used by communicators, had not yet been encoded in a dataset that can be used for machine learning. To fill this gap, we enriched the Frame2 dataset with annotations of gestures used for turn organization. The Frame2 dataset features 10 episodes from the Brazilian TV series Pedro Pelo Mundo annotated for semantic frames evoked in both video and text. This dataset allowed us to closely observe how communicators use interactive gestures outside a laboratory, in settings, to our knowledge, not previously recorded in related literature. Our results have confirmed that communicators involved in face-to-face conversation make use of gestures as a tool for passing, taking and keeping conversational turns, and also revealed variations of some gestures that had not been documented before. We propose that the use of these gestures arises from the conceptualization of pragmatic frames, involving mental spaces, blending and conceptual metaphors. In addition, our data demonstrate that the annotation of pragmatic frames contributes to a deeper understanding of human cognition and language.

Pragmatic Frames Evoked by Gestures: A FrameNet Brasil Approach to Multimodality in Turn Organization

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理