Labeling Sentences with Symbolic and Deictic Gestures via Semantic Similarity

作者: Ariel Gjaci, Carmine Tommaso Recchiuto, Antonio Sgorbissa

分类: cs.RO

发布日期: 2024-07-02 (更新: 2024-07-03)

备注: 8 pages, 7 figures, 2 tables. To be published in IEEE ROMAN 2024

💡 一句话要点

提出基于语义相似度的规则算法，为语句标注符号和指示性手势

🎯 匹配领域: 支柱一：机器人控制 (Robot Control)

关键词: 共语手势生成 语义相似度 符号手势 指示性手势 人机交互 RoBERTa模型 规则算法

📋 核心要点

现有端到端方法难以生成与语义相关的特定形式（符号和指示性）的伴随语音手势。
利用RoBERTa模型计算语义相似度，通过规则算法将语句与对应的符号和指示性手势关联。
实验结果表明，该方法在语句中寻找符号和指示性手势方面有效，并通过用户研究验证。

📝 摘要（中文）

本文致力于解决人工代理生成伴随语音的手势时，难以生成与语义相关的特定形式手势（即符号和指示性手势）的问题。提出了一种基于规则的算法，用于标注句子中的符号和指示性手势。首先，选取了意大利文化中人们能够识别的12种手势，这些手势可以被不同的人形机器人复现。然后，实现了两个基于规则的算法，利用RoBERTa模型计算的语义相似度得分，在代表手势的句子和目标句子中的子句之间进行比较，从而标注句子中的符号和指示性手势。同时，实现了一个不计算相似度得分的基线算法。最后，为了验证结果，邀请30人通过图形用户界面（GUI）标注一组句子，并将标注结果与算法的输出进行比较，计算平均精度（AP）、交并比（IOU）和平均计算时间（ACT）。实验结果表明，语义相似度得分对于在语句中寻找符号和指示性手势是有效的。

🔬 方法详解

问题定义：现有端到端的共语手势生成方法难以生成与语义相关的特定形式的手势，特别是符号性和指示性手势。这些手势对于增强人机交互的自然性和表达能力至关重要。因此，需要一种方法能够准确地识别句子中与这些手势相关的词语，并将其与合适的手势关联起来。

核心思路：该论文的核心思路是利用语义相似度来确定句子中哪些词语与特定的符号性和指示性手势相关联。通过将句子分解成子句，并计算这些子句与代表特定手势的句子之间的语义相似度，可以找到最相关的词语，并将其与相应的手势关联起来。这种方法基于的假设是，语义上相似的句子应该对应相似的手势。

技术框架：该方法主要包含以下几个阶段：1) 手势选择：选择一组机器人可以复现的、具有代表性的符号性和指示性手势。2) 规则定义：定义基于语义相似度的规则，用于将句子中的词语与选定的手势关联起来。3) 语义相似度计算：使用RoBERTa模型计算句子和子句之间的语义相似度得分。4) 手势标注：根据计算出的语义相似度得分和定义的规则，为句子中的词语标注相应的手势。5) 结果验证：通过用户研究，将算法的标注结果与人工标注结果进行比较，评估算法的性能。

关键创新：该论文的关键创新在于将语义相似度应用于共语手势生成领域，并提出了一种基于规则的算法，用于自动标注句子中的符号性和指示性手势。与传统的端到端方法相比，该方法更加可解释，并且可以更容易地控制生成的手势的类型和形式。此外，该方法不需要大量的训练数据，可以更容易地应用于新的领域和语言。

关键设计：该方法的关键设计包括：1) 手势库的选择：选择了一组意大利文化中常用的、易于理解和复现的符号性和指示性手势。2) 语义相似度模型的选择：选择了RoBERTa模型，因为它在语义理解方面表现出色。3) 规则的设计：规则的设计需要仔细考虑不同类型的手势的语义特征，以及如何将这些特征与句子中的词语关联起来。4) 相似度阈值的设定：需要设定合适的相似度阈值，以确保标注的准确性和召回率。

🖼️ 关键图片

📊 实验亮点

实验结果表明，基于语义相似度的规则算法在标注符号性和指示性手势方面表现良好。通过与人工标注结果的比较，该算法取得了较高的平均精度（AP）和交并比（IOU）得分，证明了语义相似度对于寻找语句中的符号性和指示性手势的有效性。同时，算法的平均计算时间（ACT）也得到了评估。

🎯 应用场景

该研究成果可应用于人机交互、社交机器人、虚拟助手等领域。通过使人工代理能够生成与语义相关的自然手势，可以提高人机交互的自然性和表达能力，增强用户的体验。未来，该技术可以扩展到更多语言和文化，并应用于更复杂的场景，例如教育、医疗等。

📄 摘要（原文）

Co-speech gesture generation on artificial agents has gained attention recently, mainly when it is based on data-driven models. However, end-to-end methods often fail to generate co-speech gestures related to semantics with specific forms, i.e., Symbolic and Deictic gestures. In this work, we identify which words in a sentence are contextually related to Symbolic and Deictic gestures. Firstly, we appropriately chose 12 gestures recognized by people from the Italian culture, which different humanoid robots can reproduce. Then, we implemented two rule-based algorithms to label sentences with Symbolic and Deictic gestures. The rules depend on the semantic similarity scores computed with the RoBerta model between sentences that heuristically represent gestures and sub-sentences inside an objective sentence that artificial agents have to pronounce. We also implemented a baseline algorithm that assigns gestures without computing similarity scores. Finally, to validate the results, we asked 30 persons to label a set of sentences with Deictic and Symbolic gestures through a Graphical User Interface (GUI), and we compared the labels with the ones produced by our algorithms. For this scope, we computed Average Precision (AP) and Intersection Over Union (IOU) scores, and we evaluated the Average Computational Time (ACT). Our results show that semantic similarity scores are useful for finding Symbolic and Deictic gestures in utterances.

Labeling Sentences with Symbolic and Deictic Gestures via Semantic Similarity

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理