人机交互意图识别硕士论文

？（   ）ＧＵＡＮＧＤＯＮＧ ＵＮＶ６ＲＳＴＹ  ＯＦ  Ｔ６ＣＨＮＯＬＯＧＹ   ＩＩ碩士学位办文   （专业学位   ）融合面部表情和肢体动作的   人机交互意图识别   作者姓名： 杨生甜   导师姓名：   管贻生学科论（专业文答）或领域名称：辩：年月  机械工程   ２０２２年５   月学校代号：11845 分类号： UDC：密级：学号：2111901172 广东工业大学硕士学位论文（工程硕士）融合面部表情和肢体动作的人机交互意图识别杨生甜导师姓名（职称）：管贻生教授杨宇峰工程师学科（专业）或领域名称：学生所属答辩委员会主席：论文答辩学日院：期：机械工程机电工程学院邹涛教授 2022 年 5 月 28 日 A Dissertation Submitted to Guangdong University of Technology for the Degree Master of Engineering Recognition of Human-Robot Interaction Intention through Facial Expressions and Body Actions Candidate: Yang Shengtian Supervisor: Prof. Guan Yisheng May 2022 School of Electromechanical Engineering Guangdong University of Technology Guangzhou, Guangdong, P. R. China, 510006 摘要摘要在许多交互场景中，人类的情感支配着外部行为，行为又反映了个体内部意图。如果机器人能够通过可观察的外部行为来识别用户的交互意图，那么就可以进行个性化的回应，从而表现出自然的动作，这正是以人为中心智能化交互的体现。通过文献调研发现，目前交互意图识别工作所使用的信息主要有三类：语音信息、生物电信号和视觉信息。使用语音信息的交互意图识别工作在嘈杂的环境下难以发挥作用，生物电信号信息对实验环境和实验设备要求非常严苛，只有使用视觉信息的交互意图识别工作才具有大范围推广的可能性。而在使用视觉信息的交互意图识别工作中，大部分都是基于单一信息，这会导致在一些异常情况下模型的识别结果不准确。针对这些问题，本文提出了一种新的交互意图识别方法。仅从 RGB 视频中获取用户的面部表情和肢体动作信息，并引入了人脸角度特征来提升模型的鲁棒性，基于这三种信息来判别用户是否有想要与机器人进行交互的意图。通过探索有效的特征提取和融合方法，建立交互意图识别模型，采用注意力机制进行融合分类，取得了较好的效果。本文的主要研究内容如下：首先创建了一个包含面部表情和肢体动作的交互意图识别数据集。由于交互意图识别工作的任务指向性强，现阶段的研究大多针对某个特定的任务，没有标准的开源数据集以供使用，所以本文需要构建合适的数据集。本文的数据集共采集了 21 位交互者与机器人交互时的视频，包含面部表情和肢体动作，经过处理后得到了交互意图识别数据集，共包含 3528 段视频。随后制定了数据集的标注原则，将数据集标注为“有交互意图”和“无交互意图”两类。其次，针对每种信息的特点采用专门的神经网络进行特征提取。在特征提取阶段，本文采用深度学习方法对不同特征进行提取，相比于传统的手工提取特征，深度神经网络可以更有效的挖掘特征的深层次有效信息。本文使用 VGG-19 网络提取数据集中的面部表情特征，使用 ResNet50 网络提取人脸角度特征。在动作特征提取方面，提出了人体区域融合的方法，使用 Yolov3 和 C3D 网络提取肢体动作的时空特征。最后根据注意力机制提出了三种不同的融合方法。在特征融合阶段，本文采用了注意力机制，有选择性的对有效特征增加权重，对无效特征降低权重，通过实验选出 I 广东工业大学硕士专业学位论文特征拼接、层级注意力、自注意力三种不同的特征融合方法中效果最好的一种。在本文所提出的交互意图识别数据集上进行测试，选择 F1 分数作为评价指标，本文方法的 F1 分数达到 93.7%，比使用单一特征所取得的最好结果高出 11.2%，证明了多个特征融合的有效性。在与其他类似的先进工作对比中，本文方法也展现出了显著的优势。关键词：交互意图识别；深度学习；特征提取；特征融合；注意力机制 II ABSTRACT ABSTRACT In many social scenarios, human emotion governs external behavior, and behavior reflects intention. If a social robot can recognize users’ interaction intention through observable behaviors, it can respond in a personalized way, thus exhibiting “natural” behavior, this is the embodiment of human-centered intelligent interaction. At present, there are three kinds of information used in interactive intention recognition: speech information, bioelectrical signal information and visual information. The interaction intention recognition using speech information is difficult to play its role in noisy environment. Bioelectrical signal information has strict requirements on experimental environment and equipment. Only the interaction intention recognition using visual information has the possibility to be widely promoted. However, most of the interaction intention recognition works using visual information is based on single information, which usually lead to inaccurate results in some situations. In view of these questions, this thesis proposes a new interaction intention recognition method, which only obtains the user's facial expression and body action information from RGB video, and introduces the face angle features to improve the robustness of the model, and determines whether the user wants to interact with the robot based on these three kinds of information. Through feature extraction and fusion, the interaction intention recognition model is established, and the advanced attention mechanism is used for fusion classification, which achieves good results. The main research contents of this thesis are as follows: Firstly, an interaction intention recognition dataset containing facial expressions and body actions was created. Due to the strong directivity of interaction intention identification, studies at the present stage are mainly targeted at specific tasks, and there is no standard open source dataset for use. Therefore, dataset needs to be constructed in this thesis. The dataset of this thesis collected from 21 interactors, including facial expressions and body actions. After processing, the dataset of interaction intention recognition was obtained, including 3528 videos in total. Then, the annotation principle of dataset was developed, and III 广东工业大学硕士专业学位论文 the dataset were labeled as "strong interaction intention" and "no interaction intention". Then, deep neural networks are chosen for feature extraction based on the characteristic of each ferture. Compared with traditional manual features, deep neural network can excavate deep effective information of features more effectively. In this thesis, VGG-19 network is used to extract facial expression features from data sets, and ResNet50 network is used to extract facial angle features. In the aspect of action feature extraction, a method of human body region fusion is proposed, which uses Yolov3 and C3D network to extract the temporal and spatial features of body actions. Finally, this thesis adopts the attention mechanism method, selectively increasing the weight of the effective features, reducing the weight of the invalid features, and proposes three different feature fusion methods based on the attention mechanism, in order to select the best one. Experiments were carried out on the interaction intention recognition dataset proposed in this thesis, and F1 score was selected as the evaluation index. The F1 score of the proposed method reached 93.68%, 11.17% higher than the best result obtained by using a single feature, proving the effectiveness of multiple feature fusion. In comparison with other advanced work, the method presented in this thesis also shows significant advantages. Key words: interaction intention recognition; deep learning; feature extraction; feature fusion; attention mechanism IV 目录目录摘要 ........................................................................................................................................... I ABSTRACT ..........................................................................................................................III 目录 ......................................................................................................................................... V CONTENTS ....................................................................................................................... VIII 第一章绪论 .......................................................................................................................... 1 1.1 本课题研究背景及研究意义 ................................................................................... 1 1.2 国内外研究现状 ....................................................................................................... 2 1.2.1 交互意图与情感之间的心理学基础 ............................................................ 3 1.2.2 国内外交互意图识别研究现状 .................................................................... 4 1.3 本课题研究目标和主要研究内容 ........................................................................... 7 1.4 课题来源 ................................................................................................................... 8 1.5 本章小结 ................................................................................................................... 8 第二章交互意图识别数据集 .............................................................................................. 9 2.1 交互意图识别数据集介绍 ....................................................................................... 9 2.2 数据采集 ................................................................................................................. 10 2.2.1 采集对象 ...................................................................................................... 10 2.2.2 采集方案设计 .............................................................................................. 10 2.2.3 采集结果 ...................................................................................................... 11 2.3 数据标注 ................................................................................................................. 12 2.3.1 标签类别 ...................................................................................................... 12 2.3.2 数据标注员 .................................................................................................. 14 2.3.3 数据的标注 .................................................................................................. 15 2.4 数据集特性分析 ..................................................................................................... 16 2.5 本章小结 ................................................................................................................. 17 第三章交互意图特征提取 ................................................................................................ 18 V 广东工业大学硕士专业学位论文 3.1 引言 ......................................................................................................................... 18 3.2 面部表情特征 ......................................................................................................... 19 3.2.1 人脸图像预处理 .......................................................................................... 19 3.2.2 面部表情识别 .............................................................................................. 24 3.2.3 面部表情特征提取 ...................................................................................... 26 3.3 肢体动作特征 ......................................................................................................... 29 3.3.1 肢体动作识别 .............................................................................................. 29 3.3.2 肢体动作特征提取 ...................................................................................... 32 3.4 人脸角度特征 ......................................................................................................... 35 3.4.1 人脸角度的引入 .......................................................................................... 35 3.4.2 人脸角度检测 .............................................................................................. 35 3.4.3 人脸角度特征提取 ...................................................................................... 37 3.5 特征性能比较 ......................................................................................................... 38 3.6 本章小结 ................................................................................................................. 39 第四章交互意图识别特征融合 ........................................................................................ 40 4.1 交互意图识别模型框架 ......................................................................................... 40 4.2 信息融合方法介绍 ................................................................................................. 41 4.3 基于注意力机制的特征融合策略 ......................................................................... 43 4.3.1 注意力机制的原理及计算方法 .................................................................. 43 4.3.2 注意力机制的不同融合策略 ...................................................................... 45 4.4 本章小结 ................................................................................................................. 47 第五章实验及结果分析 .................................................................................................... 48 5.1 特征对比实验 ......................................................................................................... 48 5.2 最佳融合策略选择 ................................................................................................. 51 5.3 基于情感信息的交互意图识别结果 ..................................................................... 53 5.3.1 评价标准 ...................................................................................................... 53 5.3.2 实验结果 ...................................................................................................... 54 VI 目录 5.3.3 与同类型先进工作的对比 .......................................................................... 56 5.4 人机互动实验 ......................................................................................................... 58 5.5 本章小结 ................................................................................................................. 59 结论与展望 ............................................................................................................................ 60 参考文献 ................................................................................................................................ 62 攻读学位期间取得与学位论文相关的成果 ........................................................................ 68 学位论文独创性声明 ............................................................................................................ 69 致谢 ...................................................................................................................................... 70 VII 广东工业大学硕士专业学位论文 CONTENTS ABSTRACT (IN CHINESE) .................................................................................................. I ABSTRACT (IN ENGLISH) ...............................................................................................III CONTENTS (IN CHINESE) ................................................................................................ V CONTENTS (IN ENGLISH)............................................................................................ VIII Chapter 1 Introduction .......................................................................................................... 1 1.1 Background and Significance of Research................................................................. 1 1.2 Research Status at Home and Abroad ........................................................................ 2 1.2.1 The Psychological Basis Between Interaction Intention and Emotion ........... 3 1.2.2 Research Status on Interaction Intention Recognition .................................... 4 1.3 The Research Objectives and Main Contents of This Subject ................................... 7 1.4 Project Source............................................................................................................. 8 1.5 Chapter Summary ....................................................................................................... 8 Chapter 2 Interaction Intention Recognition Dataset......................................................... 8 2.1 The Status of Interaction Intention Recognition Dataset ........................................... 9 2.2 Data Acquisition ....................................................................................................... 10 2.2.1 Data Acquisition Object ................................................................................ 10 2.2.2 The Plan of Data Acquisition ........................................................................ 10 2.2.3 Data Acquisition Results ............................................................................... 11 2.3 Dataset Annotation ................................................................................................... 12 2.3.1 Label Category .............................................................................................. 12 2.3.2 Annotator ....................................................................................................... 14 2.3.3 The Aannotation of Dataset ........................................................................... 15 2.4 Analysis of the Dataset ............................................................................................. 16 2.5 Chapter Summary ..................................................................................................... 17 Chapter 3 Feature Extraction of Interaction Intention Recognition ............................... 18 VIII CONTENTS 3.1 Introduction .............................................................................................................. 18 3.2 Facial Expression Fertures ....................................................................................... 19 3.2.1 The Preprocessing of Face Images ................................................................ 19 3.2.2 Facial Expression Recognition ...................................................................... 23 3.2.3 Frature Extraction of Facial Expressions ...................................................... 25 3.3 Body Action Features ............................................................................................... 29 3.3.1 Body Action Recognition .............................................................................. 29 3.3.2 Frature Extraction of Body Actions............................................................... 32 3.4 Face Angle Features ................................................................................................. 35 3.4.1 Introduce of Face Angle Features .................................................................. 35 3.4.2 The Detection of Face Angles ....................................................................... 35 3.4.3 Frature Extraction of Face Angles ................................................................. 37 3.5 The Performance Comparison of Different Features ............................................... 38 3.6 Chapter Summary ..................................................................................................... 39 Chapter 4 Feature Fusion of Interaction Intention Recognition ..................................... 40 4.1 Framework of Interaction Intention Recognition Model ......................................... 40 4.2 Information Fusion Methods .................................................................................... 41 4.3 Feature Fusion Strategy Based on Attention Mechanism ........................................ 43 4.3.1 The Principle and Calculation Method of Attention Mechanism .................. 43 4.3.2 Different Fusion Strategies ............................................................................ 45 4.4 Chapter Summary ..................................................................................................... 47 Chapter 5 Experiments and Results Analysis .................................................................... 48 5.1 Feature Comparison Experiments ............................................................................ 48 5.2 Optimal Feature Fusion Strategy Selction Experiments .......................................... 51 5.3 The Recognition Results Based on Emotion Information ........................................ 53 5.3.1 Evalution Metrics .......................................................................................... 53 5.3.2 Experiment Results........................................................................................ 54 IX 广东工业大学硕士专业学位论文 5.3.3 Comparison with Other Advanced Works ..................................................... 56 5.4 Human-Robot Interaction Experiment ..................................................................... 58 5.5 Chapter Summary ..................................................................................................... 60 Conclusion and Prospect...................................................................................................... 61 References ............................................................................................................................. 63 Publication and Patents During Study ............................................................................... 69 Statement of Original Authorship and Copyright Licensing Declaration ...................... 70 Acknowlegements ................................................................................................................. 71 X 第一章绪论第一章绪论 1.1 本课题研究背景及研究意义近年来，机器人越来越多的参与到我们的日常生活中，被应用在各种现代化社会领域，包括服务[1] 、教育[2] 和医疗[3] [4] 。为了方便现代人的生活，人们希望这些机器人能够与用户进行智能化的交互，这就要求机器人能够理解人类的社会行为，并给出社会可接受的回应[5] 。社会生活需要机器人有更多可用的通信方式[6] ，使用用户能够直接提供的信息作为通信方式无疑是最简单也是最自然的一种。因此，在近年来，使用图像、声音、视频等作为机器人通信方式的研究工作也逐渐增多，这类工作也非常符合以人为中心的人机交互模式。由此可以设想，若机器人能够通过自然的人机交互方式，不需要用户主动提供指令，就可以对用户的交互意图进行识别和预测，那么人民的生活质量将大大提高。交互意图识别的定义是机器人需要从用户提供的有限信息（如语音命令、手势、身体姿势、眼睛注视方向、面部表情[7] ）中了解用户的交互目的（期望、目标、意图等）。本文所探讨的交互意图识别是指在人机交互（Human-Robot Interaction, HRI）过程中，对用户是否有意向与机器人进行交互的判别。交互意图识别所涵盖的领域非常广泛，一些交互意图识别工作利用一些可佩戴的传感器，如利用眼动仪来检测用户视线落点从而推断用户意图[8] ；通过采集脑电信号、肌电信号等来判断用户对放置在面前的哪个物体比较感兴趣[9] ；通过 Kinect 相机采集深度图像来获得手臂的运动速度及方向从而判断用户的抓取意图等[10] 。这种佩戴传感器的方法需要的设备昂贵复杂，对实验环境的要求非常严苛，且信号极易受干扰，交互者为实验人员居多，不具备真实使用场景的大范围推广性。随着深度学习的发展和计算机算力的提升，使用视频和音频信息的交互意图识别工作开始涌现，各种视觉、听觉信息开始被大范围采用。用户在表达意图的过程中可以通过多种媒介，如头部姿态、面部表情、视线方向、手势、肢体动作、语音信息等，这些自然方便且易获取的信息来源，使得交互意图识别成为了人机交互方面的重要研究领域。然而对于机器人，准确识别交互者的意图是一项十分复杂、繁琐的工作，通常需从多方面和多角度的描述才能准确识别用户的意图。因 1 广东工业大学硕士专业学位论文此，怎样去选择特征，选择什么类型的特征来进行交互意图识别是一个值得探究的问题。研究认为，一个人的情感状态是人类是否想与外界互动的关键决定因素[11] ，因此如何使机器人具有情绪理解能力是交互意图识别领域中一个非常有研究意义的课题。心理学研究表明，人的绝大部分情感表达是通过面部信息和语音信息传递的，面部表情传达了 55%的信息，语调传达了 38%的信息[12] 。因此，在之前的使用情感信息的交互意图识别研究中，大部分都是基于面部表情或语音的研究工作。然而，真实场景中的人机交互是一个非常复杂的过程，仅仅依靠面部表情或声音会使得识别结果具有非常大的不确定性，因为在某些因素导致面部表情或语音异常的情况下，这些方法会直接失效。心理学研究进一步表明，肢体动作可以传达一些非语言的情绪信息，是面部表情和声音所没有的。在阅读了大量相关研究工作后，经过对比发现，目前大部分通过情感状态来推断交互意图的工作都是利用单个特征进行研究，其中以面部表情和语音信息居多。尽管单个特征的研究取得了不错的效果，但是仅依赖单个特征会导致在一些异常情况下使得模型失效，如使用面部表情信息的研究工作，若在光线昏暗、面部遮挡等情况下，很难清晰的获取到用户的表情信息，特别是在疫情常态化防控的今天，给单纯基于面部表情信息的智能化识别带来了巨大的不便。研究表明，视觉通道提供给人80%以上的外界信息[13] ，于是近年来，有许多学者依据人的视觉信息对用户的交互意图进行研究，使用多个视觉特征来共同推断交互意图的工作逐渐走入了研究者的视野中。本文基于前人的研究经验，利用用户在与机器人交互时的视频信息，从中提取面部表情、人脸角度和肢体动作特征，提出了一种融合三种特征的交互意图识别方法，来判别用户是否想要与机器人进行交互。这三种特征的获取仅需要利用到一个 RGB 摄像头，采集过程具有非侵犯性、非接触性、自然不易被察觉等优点，适合真实使用场景的大范围推广。三种信息可以相互补充，在某一类特征失效时还有其他特征辅助，大大提升了模型的鲁棒性，降低了交互意图识别结果的不确定性。 1.2 国内外研究现状本文主要通过面部表情和肢体动作的情感信息表达来判别用户当下的情感状态， 2 第一章绪论据此来推断用户是否想要与机器人交互。准确判别用户的情感状态是推断的依据，故本节首先对交互意图与情感之间的关系进行阐述，然后介绍交互意图识别领域内的相关研究现状。 1.2.1 交互意图与情感之间的心理学基础许多心理学研究表明，个体的内部情感与行为的表达有着直接的联系。Thagard 等人提出，情感对个体行为意图的影响是非常显著的，指导着行为的产生以及行为的执行和控制，是个体意图和行动之间的媒介，对个体行为有着积极或消极的影响[14] 。在 Bagozzi 的自我调节理论中详细解释了意图和情感的联系，场景或物体会激发个体情感，情感引起意图表达，进而影响随后的行为[15] 。Marttlia 通过研究人们参与户外运动的意图与情感之间的关系发现，保持积极的情感状态与户外有氧运动参与者的意向、动机和行为之间具有非常高的关联性[16] 。通过总结心理学家们的研究可以发现，情感虽然是个体内部的主观体验，但是总伴随某些外部表现出现，这些外部表现一般表现在人与人的交互过程中，人们往往通过观察交互对方的表情、动作来推断出其情感状态直至行为意图，于是通过识别用户的情感状态来对其交互意图进行判定是合理且可行的。面部表情是个体情感最直观的表达，通过观察面部表情可以直接地了解到个体在注视物体或场景后的情感状态[17] 。Tipples 等人的研究表明，人类在恐惧状态下会出现比较快的注意转移[18] 。同样，Bayless 等人通过研究发现，在惊恐状态下，人类通常会较快的使自己远离引起不适的源头物体或场景，但在愉快的状态下通常会直视或接近交互的另一方[19] 。将这些心理学研究类比到人机交互行为中，如果用户面对机器人表达出的是开心、惊喜、愉悦的表情，那么就可以认为用户是想要与机器人进行进一步交互活动的，如果是恐惧、愤怒等表情，可以推断用户当下是不想或者抗拒与机器人交互的。认知神经科学研究表明，肢体动作为人类情感状态提供了非常重要的信息来源[20] ，且通常比面部表情所表达的情感更能准确反映个体的内心状态，在内心所想和外在行动不一致的情感表现中，肢体动作比面部表情更加准确[21] 。早在 1988 年，心理学家 Argyle 便提出肢体动作是情感交流的一种重要方式，可以与面部表情一起传达重要的情感信息[22] 。Mondloch 等人将肢体动作作为一个附加参数，与面部表情一起来区分 3 广东工业大学硕士专业学位论文人的积极情绪和消极情绪，结果证明结合面部表情和肢体动作进行识别要比仅使用面部表情的准确度高[23] 。Schindler 等人提出了一种仿照视觉皮层计算模型的神经探测器模型，仅利用单一肢体动作信息来识别被试者的情感状态，证明了从肢体动作识别情感状态的可靠性[24] 。经过以上对情感和交互意图之间联系的分析，可以说明通过识别用户的面部表情和肢体动作等情感状态信息去推断用户是否想要与机器人进行交互是合理且可靠的。 1.2.2 国内外交互意图识别研究现状根据所利用信息的不同，交互意图识别工作的主要形式有三种，基于语音信息的交互意图识别、基于生物电信号的交互意图识别、基于视觉信息的交互意图识别。 1）基于语音的交互意图识别基于语音的交互意图识别技术主要是通过分类的方法将识别出的语音信息分到相对应的意图分类中[25] ，并进行对比识别，该理论由Kautz等人[26] 首次提出，广泛应用在语音搜索程序中。通过分析用户的语音信息输入，根据模板匹配将其分类到不同的类别，如用户输入“放首音乐”，那么这个语音指令便会分类到音乐类意图中。在与机器人交互过程中，使用交互意图识别来获取与用户语音最相关的信息作为语音指令，再将指令分配到机器人不同的执行单元，可以缩短用户的操作时间，提高交互体验。使用语音信息的交互意图识别任务传统流程如图1-1所示。使用语音信息的交互意图识别应用虽然非常广泛，但通常需要用户主动去提供相关语音指令，交互过程完全由用户主导。而且在一些交互对象过多或者嘈杂的场景中，语音信息杂乱，很难准确判别用户的交互意图。图 1-1 使用语音信息的交互意图识别流程 Fig.1-1 The process of interaction intention recognition using audio signals 2）基于生物电信号的交互意图识别目前基于生物电信号的交互意图识别工作中，常用的生物电信号包括肌电 4 第一章绪论（ Electromyography, EMG ）、脑电（ Electroencephalogarphy, EEG ）和眼电（Electrooculography, EOG）信号等[27] 。基于肌电等生物电信号的意图识别技术[28] ，是指通过佩戴各种传感器，采集用户在进行动作或观看画面时的生物电信号，从而推断用户意图。通过在人体贴上生物电信号传感器，计算行为信息神经元传输到相关身体部位和组织时所产生的电位和，将获取到人体的生物电信号解码进而识别人的行为和意图，该方法己成为人机交互研究的热点之一，有望帮助高位截瘫等丧失行动能力的人群与外界进行交互。传统的使用生物电信号的交互意图识别流程如图 1-2 所示。生物电信号所传达的是无法加以伪装的情感信息，使用生物电信号的交互意图识别工作往往会获得较为准确的意图识别结果。但生物电信号对采集设备、采集场景的要求非常严苛，信号极易受光照、电磁波等因素的干扰，现阶段主要用于实验室研究和特殊人群的交互意图识别等场景，不适合应用于日常的交互服务。图 1-2 使用电信号的交互意图识别流程 Fig.1-2 The process of interaction intention recognition using electrical signals 3）基于视觉信息的交互意图识别基于视觉信息的交互意图识别技术主要是观测用户的外部表现，所使用的视觉信息有以下几种：视线方向、头部姿态、面部表情、肢体动作和手势等。Yang 等人[29] 利用用户看向不同位置时视线的注视关系，从中提取一些定量特征并进行统计分析，依此来判断用户想要抓取面前的哪个物体。Perdana 等人[30] 通过获取头部姿态信息，对头部姿态角进行分类，来预测行人是否有过马路的意图。Carmen 等人[31] 利用用户在一个交互场景中眼睛、嘴巴、下巴等面部不同区域的反应，来识别用户对交互内容是否感兴趣。Luo 等人[32] 采用线性判别分析和极值学习机结合的方法，对腕关节的运动意图进行综合评价，利用手腕的转动来识别手势，从而与机器人交互。虽然这些交互 5 广东工业大学硕士专业学位论文意图识别研究在各自的任务中都取得了不错的结果，但他们都是基于单一信息来进行识别的。随着深度学习技术的兴起，视觉信息的特征提取技术由于其方便和高效的特点逐渐被广泛使用，多个特征的融合也成为了许多领域的研究热点。在身份识别领域，Ye 等人[33] 通过融合头部姿态、面部特征和语音信息的方法搭建了一套高准确度的身份识别系统，在大规模数据集上可以对 10034 个人物的身份进行识别，证明了多模态信息融合的优越性。在专注度识别领域，Liu 等人[34] 使用头部姿态、人眼视线和面部表情信息对远程教育学生上课时的专注度进行识别，证明了多个特征融合的效果优于单个特征的效果。在交互意图识别领域，很多使用多特征融合的研究学者一般都利用生物电信号，或者视觉信息结合生物电信号[35] [36] [37] ，不适合大范围的应用场景。使用纯视觉信息多特征的研究中，Filntisis 等人[38] 利用面部和肢体的关键点，通过神经网络来判断儿童在面对机器人时的交互意图，但该工作并没有探究多种特征融合方法，且算法精度也有待提升。使用视觉信息的交互意图识别流程如图 1-3 所示。图 1-3 使用视觉信息的交互意图识别流程 Fig.1-3 The process of interaction intention recognition using visual signals 通过对国内外以往研究的回顾不难发现，使用语音信号的交互意图识别工作需要用户主动提供指令，使用生物电信号的交互意图识别工作对实验设备及实验环境都有非常高的要求，只要使用视觉信息的交互意图识别工作可以推广到人们的日常应用中。通过对视觉信息的描述，可以发现能够表达用户意图的信息通常有以下特点：  普遍性与普适性：这些特征在每个人身上都存在，而且表达的方式基本一致，比如看到恐怖的场景会表现出害怕表情等；  稳定性与可靠性：特征本身不会在短期内发生巨大的改变，保持在能可靠获取的状态； 6 第一章绪论  易测量性和可接受性：特征的获取过程简单，只需要一个网络摄像头，获取过程不会引起用户反感；  关联性：各类视觉特征信息与交互意图的表达都有一定的联系。通过大量阅读使用不同信息的交互意图研究文献，并借助于深度学习技术和特征融合技术的蓬勃发展，本文利用用户在与机器人交互时的面部表情、人脸角度和肢体动作信息，使用深度神经网络提取特征，通过研究特征融合方法进行特征的融合分类，使交互意图识别模型具有良好的准确性和鲁棒性。 1.3 本课题研究目标和主要研究内容利用自然的人机交互方式对用户的意图进行识别，可以提高用户和机器人之间的交互效率，提升交互过程中机器人的主动性和智能性，使服务机器人更好的服务用户，促进人与机器人合作的顺利进行。人机交互意图识别对于提高机器人交互自然程度和推动服务机器人走向老百姓的日常生活具有重要意义。本文以用户在面对机器人时的交互意图为核心，主要解决以下问题： 1）针对传统的交互意图识别方式数据采集复杂的问题，选择利用视觉特征来进行更为自然的信息采集； 2）针对交互意图识别数据集缺乏的问题，本文创建了一个以机器人为第一视角的包含面部表情和肢体动作的交互意图识别数据集，为交互意图识别领域贡献新的数据； 3）针对一些异常干扰导致面部表情特征失效的问题，本文引入了人脸角度特征来辅助识别，提升交互意图识别模型的鲁棒性； 4）针对交互意图识别结果准确性不够的问题，本文采用先进的特征提取和特征融合技术，探索不同融合方法来对提取到的特征进行融合分类，极大的提升了识别结果的准确性。为解决以上问题，实现研究目标，本文的研究内容如下：第一章主要介绍了交互意图识别的研究背景，通过对各项研究工作所使用信息的归类列举了一些研究现状，并分析了交互意图识别工作中三种常用类型信息的优缺点以及选用原则。第二章介绍了交互意图识别数据集的创建过程，分别介绍了数据采集的具体内容 7 广东工业大学硕士专业学位论文及细节，数据标注的方法及原则，并对数据集特性进行了分析。第三章主要介绍特征提取工作。为了挖掘不同特征的有效信息，使用专门的深度神经网络来对单个特征进行特征提取，在提取过程中发现，数据集中有很多人脸没有正对摄像头的数据，于是引入了人脸角度特征解决由于表情观测不准确而引起误差的问题，提升模型的鲁棒性。第四章主要介绍特征融合工作，通过调研，采用了基于注意力机制的特征融合方法。首先对注意力机制做了简单的介绍，对注意力机制的原理及计算方法做了说明，最后提出了三种不同的注意力机制融合方法用于本文的融合分类实验。第五章是实验及结果分析。第一系列的实验是特征对比实验，通过实验确定了人脸角度特征的引入是可以帮助提升交互意图识别结果的准确性的。第二系列的实验是融合策略选择实验，通过实验选定效果最好的融合策略。最后在实验室的双臂机器人上进行了人机互动的实验，验证算法的有效性。 1.4 课题来源本课题来源于广东省科技厅扬帆计划“高逼真智能仿人服务机器人研发及产业化” （项目号：2017YT05G026）。该项目包含机器人面部和肢体仿生设计模块、机器人自主移动导航模块和智能人机交互模块，本课题属于智能人机交互模块的内容。 1.5 本章小结本章首先介绍了交互意图识别技术的研究背景及意义，由于本文所采用的信息与情感相关，在国内外研究现状的部分首先介绍了交互意图与情感之间的心理学基础，奠定了本文方法的合理性，然后对交互意图识别的国内外相关研究进行叙述，并分析了现有研究的缺点及不足，最后提出了本文的研究目标及内容，详细叙述了本工作要解决的问题以及每一章节的内容安排。 8 第二章交互意图识别数据集第二章交互意图识别数据集数据集是深度学习模型训练中十分重要的一部分，也是本领域研究中比较稀缺的资源，数据的数量和质量直接决定了模型训练效果的好坏。本章对数据集采集进行介绍，主要包括数据采集方案的设计、数据采集过程及结果和数据集标注等。 2.1 交互意图识别数据集介绍在使用情感信息的交互意图识别研究中，语音信息识别是情感识别任务中发展最早以及应用最广泛的，目前开源的交互意图识别数据集大多只包含面部表情和语音信息，而在使用视觉信息的任务中，一部分只采用面部表情，一部分通过结合面部表情和手势或者手臂动作，来进行交互意图识别，目前开源的使用情感信息的交互意图识别数据集如表 2-1 所示。表 2-1 目前开源的使用情感信息的交互意图识别数据集 Table.2-1 Availiable datasets for interaction intention recognition based on emotion cues 数据集名称所采信息人物数量数据格式采集环境片段数量图片数量 JAFFE[39] 面部表情 10 图像实验室 - 213 CK+[40] 面部表情 123 视频实验室 593 - FABO[41] 表情和手势 23 视频实验室 206 - GEMEP[42] 表情和语音 10 视频和音频实验室 >7000 - HUMANINE[43] 表情和语音 10 视频和音频实验室 240 - EMILYA[44] 身体动作 11 视频实验室 7084 - THEATER[45] 动作和语音未提及视频和音频电影片段 258 - 从表中可以看出，同时包括面部表情和身体动作的数据集很少，主要有两方面的原因，其一是交互意图识别任务比较具体，通常每一项研究要实现的目标不一样，所使用的数据集也不一样，一般都是面向要解决的任务去创建合适的数据集，获取的数据量十分有限；其二是一些使用影视片段的面部表情和肢体动作数据集虽然容易获取，但往往背景噪音大，影视场景的拍摄角度不符合实际应用预期，从海量的影视资源中获取可以同时看清楚表情和动作的片段极其耗时费力，且有时候由于版权原因等很难 9 广东工业大学硕士专业学位论文被公开使用。交互意图识别任务的难点在于公开的交互意图识别数据集数量少，任务指向性强，没有统一标准的数据集以供使用，数据的标注也难以统一，学者们普遍采用自己采集的数据集进行研究，因此难以有普遍适合多项任务的交互意图识别数据集。因此，为解决本文的交互意图识别任务，首先需要构建一个合适的交互意图识别数据集。数据集制作是一项工作量十分庞大且过程繁杂的工作，除了前期设计采集方案，投入大量人力物力进行数据采集，后期数据标注的质量也是决定模型训练结果好坏的重要因素。下面本文将按照数据采集环节的前后顺序介绍本文数据集的制作过程。 2.2 数据采集 2.2.1 采集对象本文的数据采集对象为 21 位年龄在 20-30 岁之间的广东工业大学在校研究生，其中男女比例为 19：2。为保证采集过程中情感表达的准确性，选择的采集对象在数据采集期间都具有较平稳的心理状态；为保证交互过程中表情和动作的自然性，采集对象都具有一定的与机器人交互的经验。 2.2.2 采集方案设计本文所用的采集设备为海康威视网络摄像头，安装在实验室所拥有的仿人机器人的头部，采集数据时采集对象被要求做出不同社交场景下与机器人的交互表情及动作。采集对象与机器人的距离为正常社交距离，不规定具体距离数值，能保证采集对象的面部和上肢区域清晰可见即可，如图 2-1 所示。为了更好的模拟人机交互的不同场景，每个采集对象都会在 4 个杂乱程度不同的场景下进行数据采集，其中包括 3 个室内场景和 1 个室外场景，数据均为白天采集，但不对光照条件做任何限制，比如限制画面过暗或曝光等。采集过程中不对采集对象的表情及动作做任何限制，比如在害怕状态下，采集对象侧过头，面部表情很难被观测的情况，各种异常情况如图 2-2 所示。这些异常因素的干扰增加了识别的难度，为交互意图识别任务带来了挑战。但也正因如此，这些异常情况可以更好地模拟真实使用时的场景，增强模型的鲁棒性和泛化能力。由于本文所模拟的交互场景为一对一交互，所以采集画面中一次只出现一个采集对象，且交互的另一方为机器人，换而言之，本文所采集的数据集是以机器人为第一 10 第二章交互意图识别数据集视角的。 C 确保面部和上半身清晰可见图 2-1 数据采集设备与采集对象相对位置 Fig.2-1 The position between the camera and subjects （a）下巴部分遮挡（b）面部光线过暗（c）过度曝光（d）画面过暗且背景杂乱（e）部分动作出画（f）侧脸幅度过大图 2-2 画面异常示例 Fig.2-2 Examples of scenes with abnormal interference 2.2.3 采集结果经过数据采集，得到了 21 位采集对象的面部和上半身区域的原始视频数据，除小部分视频存在背景干扰、画面过暗等异常因素干扰问题（详见上一小节图 2-1）外，大 11 广东工业大学硕士专业学位论文部分视频画质良好，画面清晰，数据集包含了在 4 种不同场景下交互者的 7 类面部表情和 6 种交互动作。经过数据清洗，剔除掉数据采集准备过程中画面中未出现人物的片段，本文创建了一个包含 3528 段视频的交互意图识别数据集，每个片段的长度为 2-4 秒不等。采集到的视频数据被存储为 AVI 格式，视频分辨率为 1280×720，所采集的数据模态为 RGB 视频，采样频率为 25fps (frames per second)。交互意图识别数据集图片示例如图 2-3 所示，其中上方一行是标注为有交互意图的类别，下方一行是标注为无交互意图的类别。图 2-3 交互意图识别数据集图片示例 Fig.2-3 Examples of interaction intention recognition dataset 2.3 数据标注 2.3.1 标签类别基于情感信息的交互意图识别数据集，本文将其标签类别标注为两类：分别为有交互意图（标签 1）和无交互意图（标签 0）。根据情感领域的心理学研究，情感主要被划分为离散型[46] [47] 和连续型[48] [49] 两类。离散型情感模型是将情感划分为 6 类基本情感以及由其衍生出的复合情感，不同类别的情感之间是相互独立的，而连续型情感模型是在连续的空间上度量情感，把各类情感映射为多维度情感空间上的点（唤醒度效价模型）或者区域（PAD 模型）。这两种划分方法虽然不同，但他们并不是对立的，离散型划分是基础，而连续型划分是在基础之上进行的复杂化、系统化的进一步划分。（1）离散情感模型离散型是情感分类中最基本的方法，这种划分方式在 1987 年由心理学家 Paul 12 第二章交互意图识别数据集 Ekman 等人最先提出，并奠定的后续的离散型情感分类研究。他们主张情绪是离散且可测量的，并且在主体外部有不同的生理表现[46] 。他的观点是情感可以划分为高兴、惊讶、生气、厌恶、悲伤、恐惧等六类基本类型。（2）连续情感模型连续情感模型经历了从一维到三维的发展演变。一维连续情感模型以心理学家 Johnson 为代表，他按照负半轴消极-正半轴积极的方式将情感在一维坐标轴上排列，积极或消极程度的高低与距离坐标轴原点的距离成正比；二维连续情感模型在一维积极-消极的基础上增加了一个表示情感强烈程度的维度，又名唤醒度（arousal），其中最为经典的是 Russell 等人[48] 提出的唤醒度-效价（arousal-valence）模型，如图 2-4 所示。横坐标继承于一维连续情感模型，纵坐标表示情感的强烈程度。图 2-4 唤醒度-效价（arousal-valence）情感模型 Fig.2-4 The arousal-valence emotion model （3）表情类别的划分虽然情感模型经过诸多细分和发展，形成的许多不同的划分方式，但 Paul Ekman 13 广东工业大学硕士专业学位论文的提出的六类基本情感划分方法由于其简单普适的特点，在表情分类和情感计算等领域得到了最为广泛的应用，故本课题采用 Paul Ekman 提出的六类基本情感划分来对表情进行标注：高兴、惊讶、生气、厌恶、悲伤、恐惧，另外增加了一个中性标签，总共七类作为本文的表情标签。将开心、惊讶等可以拉近交互双方关系，增强交互愉悦度的表情规定为正向表情，归属为有交互意图的那一类，将生气、厌恶、害怕等降低交互愉悦度、增加交互挫折感的表情规定为负向表情，归属为无交互意图那一类。（4）动作类别的划分根据心理学家 Laham 提出的距离调节理论[50] ，人与人在交互过程中的肢体动作可以分为接近趋向和回避趋向。接近趋向的动作是指在固定空间内，交互双方中心点的距离拉近，此时代表交互者有与对方进一步交互的意图；而回避趋向动作是指交互双方之间的距离变远，此时代表交互者回避与对方进行交互。根据此项研究，本文将握手、拥抱、击掌等接近趋向的动作划分为有交互意图的一类，对双手推开、抱臂等防备动作（回避趋向动作）划分为无交互意图那一类，综合表情和动作信息给出最后的数据标签。 2.3.2 数据标注员本文邀请了 5 位实验室同学来进行数据标注工作，作为数据集的标注员。标注员的工作内容是观看数据集中的视频片段，根据自己的理解对视频中人物所表达的情感状态来给视频打上有无交互意图的标签。标注小组中有一位是数据集中的采集对象，选择采集对象来进行数据标注可以保证情感的分辨率，不至于引起过大的误差，但若选用过多的采集对象参与标注则会增加数据标注的主观性，不利于模型训练及泛化，因此标注小组的人员组成中只安排一位采集对象作为标注员，其他四位标注员均未参与数据采集工作。为避免外界干扰致使标注员注意力分散，标注员进行数据标注时位于安静的实验室环境内，在观看完一个视频片段后，标注员需要在 3 秒内给出视频的标签，即有交互意图 1 或无交互意图 0（具体标签标注方法见下一小节），若标注员未能在 3 秒内给出标签，则暂时跳过这一片段，待所有片段都标注完毕之后再进行不确定片段的二次标注。本文所采集的数据集片段多，一些表情特征细微难分辨，为保证标注员的精力， 14 第二章交互意图识别数据集在每进行半个小时的标注后，有五分钟的休息时间。由于每位采集对象都进行了多段数据的采集，为了防止重复观看同一采集对象的数据会导致分辨疲劳，本文通过对文件命名的方法将所有采集对象的数据打乱，保证同一个采集对象的视频片段不会连续出现三次。 2.3.3 数据的标注（1）数据的标注原则在进行数据标注之前，需要为数据标注员制定一个合适的标注原则，来确保在标注员的主观标注下尽可能接近采集对象想表达的正确结果。情感是一种复杂、多方面、多维度的信息，很难被计算机准确识别，也很难给出一个精确的定义，所以本工作根据相关心理学理论，将面部表情和肢体动作信息进行细分，具体划分方法在 2.3.1 介绍标签类别的内容中有详细说明。根据以上原则，本文制作了不同的面部表情和肢体动作与交互意图之间的关系图，以便标注员在标注时进行参考，如图 2-5 所示。图 2-5 不同表情和动作与交互意图之间的关系 Fig.2-5 The relationship of the two features and interaction intention 15 广东工业大学硕士专业学位论文（2）数据的标注过程数据集含有 3528 段视频，每个视频片段的长度在 2-4s，同时为了支持面部表情和肢体动作单独训练，本文所提出的数据集也对每个视频片段中的表情和动作进行了单独标注，故一个片段需要进行整体交互意图、表情、动作等三次标注，标注工作量非常大。由于在相近的交互意图范围内标注员很难准确分辨，为避免较大误差，本工作在标注过程中将交互意图分为 5 个不同层次：交互意图极强、交互意图较强、交互意图一般、交互意图较弱以及无交互意图，再将这五个层次进一步归类得到最后的数据标签。考虑到实际应用要求，使用服务机器人的目的就是为了更多的与人交互，更好的服务用户，因此本工作将前三个层次（交互意图极强、交互意图较强和交互意图一般）归类为有交互意图，后两个层次（交互意图较弱和无交互意图）归类为无交互意图，这样在模型训练的过程中可以更多关注到有交互意图的信息，从而在实际的落地应用中能更好的判断用户交互意图，主动诱导交互，提供服务。最终的数据标注结果由每组中的 4 位普通标注员和 1 位 5 号标注员（采集对象）依据多数投票机制共同给出（数据标注员的组成及角色分配见上一小节），如表 2-2 所示，这样可以给数据打上尽可能准确的标签，提高标签的保真度。表 2-2 数据标注的多数投票机制（以一个片段的标注为例） Table.2-2 The majority vote mechanism of data annotation (take 1 clip as example) 标注小组标注员 1 标注员 2 标注员 3 标注员 4 标注员 5 1 0 1 0 0 最终结果 0 2.4 数据集特性分析为更好地模拟日常生活场景，满足现实场景需求，本数据集在采集过程中有以下特色。为了达到采集的表情和动作表达方式自由，各位采集对象在做各种动作时均按照自己的理解，比如高兴的表情，一些是微笑，一些是张嘴大笑，再比如握手的动作，一些人伸出左手，一些人伸出右手；为了达到视角自由，数据采集过程中不要求采集对象的面部必须正对屏幕，于是会出现采集对象在表达一些比如害怕等情感状态的时 16 第二章交互意图识别数据集候会出现侧脸、低头的情况；为了弥补场景变化不足的问题，进行了室内室外共 4 个不同场景的采集，在采集过程中不限制背景的杂乱程度，甚至有一些视频片段会有除采集对象以外的其他人员出现在画面中。对数据集进行标注之后，标签为 1 和 0 的占比分别为 59.3%和 40.7%。使用机器学习的方法按照 7：3 的比例划分训练集和测试集，最终得到了本文所需要的包含面部表情和身体动作的交互意图识别数据集。 2.5 本章小结本章首先对使用情感信息的交互意图识别领域的数据集进行了简单回顾，分析了现存的公开数据集缺乏结合面部表情和肢体动作进行交互意图识别的问题，进而引出了本文所建立的交互意图识别数据集。接着介绍了交互意图识别数据集的详细采集过程，从方案设计，到标注员选取，再到标注原则，完成了数据集的设计与制作，最终创建了一个包含 21 位采集对象的面部表情和肢体动作，共 3528 个视频片段的交互意图识别数据集，为后续进行特征提取及融合操作奠定了基础。 17 广东工业大学硕士专业学位论文第三章交互意图特征提取本章对交互意图识别模型中的特征提取部分进行介绍，主要包括面部表情和肢体动作两种情感信息的特征提取，以及为了提高交互意图识别模型鲁棒性所引入的人脸角度特征的提取。特征的有效提取和保存是整个工作中至关重要的一环，直接决定了模型识别结果的准确性，同时也为后续实验验证打下基础。 3.1 引言在交互意图识别领域中，有很多工作是使用单一特征进行识别，这类工作只需要考虑单个特征的提取效果，不需要考虑不同特征之间的联系，因此更多关注的是识别网络自身的结构。对于本文的工作，不同情感特征之间并不是独立的，面部表情和肢体动作之间是有联系的，因此，除了关注网络自身结构外，怎样发掘不同信息之间的相关性和联系性也是很重要的一方面工作。根据第一章所阐述的情感信息与交互意图之间的心理学基础可以知道，一个人的情感状态在不加以伪装的情况下是统一的，换句话来说，如果一个人是正向表情，那么他所展现的身体动作大概率是接近趋向动作，反之亦然。由此可见，不同特征之间具有相关性和互补性，因此本文将结合面部表情和肢体动作进行交互意图识别，同时为了防止一些由于遮挡、低头、侧脸、光照条件不好等导致面部表情识别不准确的情况，引入了人脸角度特征以保证在这些异常情况下的识别准确率，从而提高交互意图识别模型的鲁棒性和泛化能力。识别结果是从特征融合得到的，而好的特征融合效果不仅取决于融合策略的选择，很大程度上也取决于特征本身质量，因此如何提取到有效的信息是本工作的关键。为了更好的提取有效特征，方便后续的对比试验，本章将同时提取上述所提到三种信息（面部表情、肢体动作和人脸角度）的高维和低维特征。本文中的高维特征是指除输出层外，经过卷积网络后的全连接层特征，该类特征具有结构复杂、参数多、抽象等特点，在实验中将其称为特征层特征；而低维特征是指图片在经过全连接层后，在 softmax 层的输出结果，该类特征的特点是结构简单、参数少、具备初步可读性等，在实验中将其称为决策层特征。本章将按照图 3-1 所示流程，针对不同特征信息的特点利用不同的网络去提取上述三类特征，用于后续的特征融合工作。 18 第三章交互意图特征提取图 3-1 特征提取流程 Fig.3-1 The process of features extraction 3.2 面部表情特征面部表情是最直观传达人的情感状态的信息，具有空间尺度小，易受光照、角度、遮挡等影响的特点，因此选择合适的方法提取到有效的面部表情特征是值得探究的问题。本文所创建的数据集包含了面部表情和肢体动作两种信息，这两种信息空间尺度差异大，满足表情特征提取的网络在进行动作特征提取时表现很差，因此为了使网络能够更好的学习到不同特征的信息，本文根据每种特征的特点选择有针对性的特征提取网络来提取特征。 3.2.1 人脸图像预处理预处理在图像识别任务中是不可或缺的一环，本文首先对视频数据集采用每 4 帧抽取 1 帧的方式分解为图片数据集，但直接分解所得到的图片数据集中包含了很多无用的环境噪声，需要寻找办法剔除数据集中噪声较大的数据（例如对人脸置信度分数过低的图片舍弃），提升数据集中有效信息的数量。经过清洗后的得到的图片数据集，再采取相关办法检测其中的人脸，寻找图片中人脸的位置，并将其剪裁保存下来。得到人脸数据之后，为满足网络输入要求，需要对其进行统一的尺度缩放。同时此人脸数据集也是后续获得人脸角度特征所使用的数据集。本工作对视频数据预处理的具体操作步骤如下： 19 广东工业大学硕士专业学位论文（1）视频解码本文采用 ffmpeg 工具对每一段原始视频进行解码，按照每 4 帧抽取 1 帧的方式分解视频并对解码后的图片按照在视频中的帧数顺序进行编号，对于视频最后不足四帧的情况，则每 3 帧抽取一帧，若不足 3 帧则每两帧抽取一帧，以此类推，得到视频分解后的图片数据集，经过清洗后共有约 66150 张图片。（2）人脸检测人脸检测是面部表情识别以及后续人脸角度计算的重要基础。由于表情特征变化细微，直接对整张图片进行特征提取会使网络在不重要的特征上浪费时间和算力。为了提高表情特征有效提取效率，需要首先对分解后的图片数据集中的人脸进行检测裁剪，将检测裁剪得到的人脸图片按照与视频解码得到的图片数据集同名的形式对应保存，人脸图像数据集图片示例如图 3-2 所示。（a）愤怒（e）高兴（b）厌恶（c）害怕（f）惊讶（d）悲伤（g）中性图 3-2 人脸图片数据集示例 Fig.3-2 Some examples of the face dataset 本文使用 RetinaFace[51] 进行人脸的检测。RetinaFace 是 Deng 等人于 2019 年发布的一项在真实无约束环境下的高鲁棒性人脸检测算法，它联合额外监督和自我监督的方法，利用其多任务学习优势，可以在不同人脸尺度上进行像素级的人脸定位，并输出人脸置信度、人脸框的四个坐标以及人脸五个标志点（双眼、鼻子和左右嘴角）的 20 第三章交互意图特征提取位置坐标及对应关系。由于本文只需要获得图片中的人脸区域，不需要人脸关键点的位置，因此将网络修改为只输出人脸置信度和人脸框的四个坐标，即输出一个区间在 [0, 1]的人脸置信度分数和人脸框的（x, y, w, h）的坐标。Retinaface 的检测结果如图 3-3 所示。 (a) 帽子眼镜遮挡检测效果（b）小尺度人脸检测效果图 3-3 人脸检测效果图 Fig.3-3 Examples of face detection Retinaface 在多尺度人脸检测方面发挥了巨大优势，主要与它使用了 MobileNet0.25 作为网络的 backbone 有关，其网络结构如表 3-1 所示。由表可以看出，基于金字塔特征的 MobileNet 神经网络可以对不同尺度的特征进行融合，进而提升各种尺度物体的识别精度，所以该网络在检测小物体时具有明显的优势，其轻量级的网络结构使得人脸检测模型在保持其检测准确度的同时，可以缩减模型大小，提升运算速度。 MobileNet 在交互意图识别数据集上的运行速度快，但检测误差较大，由于 Retinaface 只输出置信度阈值大于 0.5 的人脸图像及坐标，故有一些图片中的存在较大角度偏转的人脸未能检测到。考虑到本文所创建数据集的特点，每段视频中的人脸数量均≤1，因此本工作并不需要获取尽可能高置信度的人脸图像，而是需要在不同因素干扰的状态下准确检测出距离摄像头最近的一张人脸图像，因此需要对该人脸检测模型进行调整，将其 backbone 由 MobileNet 改为网络深度更深的 Resnet50，这样可以提取到更深层次的有效特征，以获得更加准确的人脸检测效果，原有的 Softmax 分类器保持不变， Resnet50 网络结构如表 3-2 所示。 21 广东工业大学硕士专业学位论文表 3-1 MobileNet 的网络结构 Table. 3-1 The neural network structure of MobileNet 网络层/步长过滤器形状输入尺寸 Conv, Stride=2 3×3×3×32 224×224×3 Depth-wise Conv, Stride=1 3×3×3 dw 112×112×32 Conv, Stride=1 1×1×32×64 112×112×32 Depth-wise Conv, Stride=2 3×3×64 dw 112×112×64 Conv, Stride=1 1×1×64×128 56×56×64 Depth-wise Conv, Stride=1 3×3×128 dw 56×56×128 Conv, Stride=1 1×1×128×128 56×56×128 Depth-wise Conv, Stride=2 3×3×128 dw 56×56×128 Conv, Stride=1 1×1×128×256 28×28×128 Depth-wise Conv, Stride=1 3×3×256 dw 28×28×256 Conv, Stride=1 1×1×256×256 28×28×256 Depth-wise Conv, Stride=2 3×3×256 dw 28×28×256 Conv, Stride=1 1×1×256×512 14×14×256 Depth-wise Conv, Stride=1 3×3×512 dw 14×14×512 1×1×512×512 14×14×512 3×3×512 dw 14×14×512 1×1×512×1024 7×7×512 3×3×1024 dw 7×7×1024 1×1×1024×1024 7×7×1024 Pool 7×7 7×7×1024 1024×1000 1×1×1024 分类器 1×1000 5× , , Depth-wise Conv, Stride=2 Conv, Stride=1 Depth-wise Conv, Stride=2 Conv, Stride=1 Average Pool, Stride=1 Fully Connected Layer, Stride=1 Softmax, Stride=1 22 第三章交互意图特征提取（3）尺度归一化由于数据采集时采集对象到摄像头的距离是一个范围，并不是保持不变的，人脸在画面中的占比各不相同，所以经过裁剪得到的人脸图片会出现大小不一的现象。为了满足表情识别网络的输入要求，需要对人脸图片统一缩放为 224×224×3 大小。缩放的方法为，对于长宽不相等的人脸图像，找到其长边，计算出长边比短边多出像素的数量，然后给短边增加边界直至与长边相等，最后再等比放大或缩小到 224×224 大小。表 3-2 Resnet50 的网络结构 Table. 3-2 The neural network structure of Resnet-50 网络层/步长过滤器形状输出尺寸 Input 1×1×1 224×224×3 Conv, Stride=2 7×7×64 112×112×64 Max Pooling, Stride=2 3×3 56×56×64 1×1×64 3×ResBlock 3×3×64 56×56×64 1××256 1×1×128 4×ResBlock 3×3×128 28×28×128 1××512 1×1×256 6×ResBlock 3×3×256 14×14×256 1××1024 1×1×512 3×ResBlock 3×3×512 7×7×512 1××2048 Average Pool, Stride=7 7×7 1×1×512 Fully Connecyed Layer 1×1×1000 1×1×1000 23 广东工业大学硕士专业学位论文 3.2.2 面部表情识别从上一小节的人脸图像预处理过程中得到了 66150 张人脸图片，本节使用 VGG-19 网络对这些人脸图片进行表情识别测试及表情特征提取。对于表情分类器的选择， Qin[52] 等人提出的利用视觉显著性特征对七类基本表情进行分类的方法取得了优秀的结果，该方法使用 VGG-19 神经网络作为 backbone，模拟现实交互场景中人类对于表情不同的注视区域，以提高面部表情的分辨准确度。其利用视觉显著特征图作为唯一输入时，精度比随机猜测的基线（1/7）高出 50.7%，因此本文选择该视觉显著特征表情分类方法进行面部表情特征识别，利用预训练的 VGG-19 深度神经网络进行表情特征提取工作。为了验证该表情分类器的有效性，本文将该分类器分别在两个包含了七类基本表情的经典数据集，CK+和 FER2013 数据集上进行测试[40] [53] 。CK+和 FER2013 是面部表情识别领域的经典数据集，均包含高兴、惊讶、伤心、生气、愤怒、恐惧和中性表情七类基本表情，CK+包含了 593 张人脸面部表情图像序列，FER2013 由 35886 张 48 ×48 像素的灰度图表情图片组成，两个数据集的部分示例图片如图 3-3 所示，上方一行为 CK+数据集中的图片示例，下方一行为 FER2013 数据集中的图片示例。经过测试，该表情分类器在 CK+数据集上取得了 94.64%的精度，在 FER20123 数据集上取得了 73.11%的精度，这远超其他分类器在这两个数据集上的识别效果，因此选择该分类器对于表情特征的提取是有效果的。（a）愤怒（b）厌恶（c）害怕（d）开心（e）伤心（f）惊讶（g）中性图 3-4 CK+和 FER2013 数据集图片示例 Fig.3-4 The examples of CK+ and FER20123 datasets 使用该分类器在本文数据集上的识别结果如图 3-4 所示，对于输入的一帧图片， 24 第三章交互意图特征提取首先找到人脸的区域进行裁剪，然后送进表情识别网络中进行表情分类，每张送进网络的人脸图片都有七种可能的结果，分辨为每类表情的置信度均为（0，1）。此处为了直观展示表情识别流程，对网络最后一层 Softmax 层所得数据进行了可视化，取七类表情中置信度分数最高的那一类别作为最终识别结果。从图 3-4（a）可以看出，识别为开心表情的置信度分数最高，因此该图片识别结果为开心表情，对于置信度分数很低的中性表情则做了舍弃；对于图 3-4（b）也是同理，识别结果有伤心和生气两种可能，取置信度分数较高的伤心结果作为最终识别结果，因此图片中的表情被识别为伤心表情。（a）开心表情（b）伤心表情图 3-5 面部表情识别效果图 Fig.3-5 The examples of facial expression recognition results 25 广东工业大学硕士专业学位论文 3.2.3 面部表情特征提取从人脸图像预处理过程中得到了 66150 张人脸图片，将这些经过预处理的图片用于表情特征的提取。为了提升面部表情识别模型的鲁棒性及泛化能力，本文对表情分类器模型中的 VGG-19 网络进行了两点调整。首先，在最后一个卷积层和全连接层之间引入了随机失活机制（dropout mechanism）[54] ，使深度神经网络在前向传播的过程中不再激活全部的神经元，而是以一定的概率随机丢弃一部分神经元，激活另一部分的神经元。通过添加 dropout 机制可以极大的降低神经网络出现过拟合现象的概率，提升神经网络的泛化能力，大大加快网络的运行速度。第二，修改了 VGG-19 的网络结构，把原网络最后的多个全连接层减少为 1 个，并在最后一个全连接层使用了 Softmax 损失函数来加快网络收敛速度，最终完成面部表情的七分类工作，Softmax 损失函数的计算公式为： =− ∑ (3.1) ∑ 其中，N 代表批量导入的数据大小，n 代表样本类别的数量，代表第 j 列的权重值，代表第 j 列的偏差值，代表第 i 个样本的深度特征，代表第 i 个样本的类别。经过调整后的 VGG-19 的网络结构如表 3-3 所示。从表格中可以看出，随着神经网络不断加深，每一层特征的维度也在不断增加，神经网络关注的特征图大小在不断变小，输入数据由大特征图、低维度矩阵逐渐转化为小特征图、高维度矩阵，最后通过一个全连接层将卷积得到的高维度矩阵展平，得到一维特征向量。（1）特征层特征对于一张输入的图片，深度神经网络对其进行卷积，根据可学习参数的不断优化，将输入的图片数据转换为抽象的深度特征，最后得到有代表性的深度特征，再经过分类器对图片进行分类。在网络不断卷积的过程中，会产生大量的特征向量，且每个阶段各不相同。为了得到有效的特征信息，本文将基于 VGG-19 的表情识别模型中全连接层的特征向量输出，作为特征层特征保存下来。全连接层的特征向量相比于网络中间卷积层的特征向量来说，已经学习到了图像深层次的有效特征，因此具有更好的代表性。 26 第三章交互意图特征提取表 3-3 VGG-19 的网络结构 Table. 3-3 The neural network structure of VGG-19 网络层/步长过滤器形状输入尺寸输入 1×1×1 224×224×3 Conv3-64, Stride=1 3×364, Padding=1 224×224×64 Conv3-64, Stride=1 3×3×64, Padding=1 224×224×64 Max Pool, Stride=2 2×2 112×112×64 Conv3-128, Stride=1 3×3×128, Padding=1 112×112×128 Conv3-128, Stride=1 3×3×128, Padding=1 112×112×128 Max Pool, Stride=2 2×2 56×56×128 Conv3-256, Stride=1 3×3×256, Padding=1 56×56×256 Conv3-256, Stride=1 3×3×256, Padding=1 56×56×256 Conv3-256, Stride=1 3×3×256, Padding=1 56×56×256 Conv3-256, Stride=1 3×3×256, Padding=1 56×56×256 Max Pool, Stride=2 2×2 28×28×256 Conv3-512, Stride=1 3×3×512, Padding=1 28×28×512 Conv3-512, Stride=1 3×3×512, Padding=1 28×28×512 Conv3-512, Stride=1 3×3×512, Padding=1 28×28×512 Conv3-512, Stride=1 3×3×512, Padding=1 28×28×512 Max Pool, Stride=2 2×2 14×14×512 Conv3-512, Stride=1 3×3×512, Padding=1 14×14×512 Conv3-512, Stride=1 3×3×512, Padding=1 14×14×512 Conv3-512, Stride=1 3×3×512, Padding=1 14×14×512 Conv3-512, Stride=1 3×3×512, Padding=1 14×14×512 Max Pool, Stride=2 2×2 7×7×512 FC-4096 —— 1×4096 Softmax 分类器 1×7 27 广东工业大学硕士专业学位论文由于网络全连接层特征向量维数高，若对 4096 个特征向量全部保存，虽然可以保留全部的信息，但对于数据集中的六万多张图片来讲，保留全部特征向量除了会出现存储空间不够的情况外，还会降低模型的运算速度。除此之外，若保留全部 4096 个特征向量，那么在训练时导入的数据批量就会变少，这样分类网络学习到的特征之间的共性知识就变得稀疏，反而会降低分类结果的准确度。因此，通过实验，本文将全连接层的 4096 维特征参数压缩为 512 维，这样既保留了特征的有效信息，也大大提升了网络的运算速度以及分类结果的准确率。特征层特征的保存格式如公式（3.2）所示，其中，N 代表人脸图像数据集中图片的总数目，n 代表图片数据集中图片的编号，i 表示第 i 维的特征， , (n∈ (0, N), i ∈ (0, 511))代表经过神经网络计算之后得到的面部表情特征层特征。 ⎡ ⎢ ⎢ ⎢ ⎣ , , , , ⋯ ⋯ , ⎤ ⎥ ⎥ ⎥ ⎦ , ⋮ ( ) ( ), ( ), , , ⋯ ⋯ ( ), , (3.2) （2）决策层特征本文将基于 VGG-19 的表情识别模型中 Softmax 层的特征向量提取出来，作为面部表情信息的决策层特征输出保存。决策层特征具有维数低、特征具有初步可读性等特点，且决策层特征的维数与分类任务的类别数相等。对于本文来说，就是将 Softmax 层的 7 维特征向量保存下来，这 7 维特征向量分别代表了 7 个不同表情类别的置信度分数，保存格式如公式（3.3）所示。 ⎡ ⎢ ⎢ ⎢ ⎢ ⎣ , , , , , , , , , , , , , , ⋮ ( ) ( , ( ), , ), , ⋯ ( , , ), ( , ), , ⎤ ⎥ ⎥ ⎥ ⎥ ⎦ （3.3）其中，N 代表人脸图像数据集中图片的总数目，n 代表图片的编号，i 代表用数字表示的表情的类别， , (n∈ (0, N), i ∈ {0, 1, 2, 3, 4, 5, 6})表示所保存的 7 维决策层特征，即各类表情的置信度分数。经过特征提取，本文从交互意图识别数据集得到了面部表情信息的两种特征： 1）面部表情特征层特征：图像经过 VGG-19 网络之后，将全连接层的 4096 维特征向 28 第三章交互意图特征提取量降维至 512 维所得到的特征； 2）面部表情决策层特征：图像经过 VGG-19 的所有网络层，在 Softmax 层的所得到的计算结果，即 7 维置信度分数。以上两类特征都与其对应的图像编号组成新的数组，以供下一章的特征融合工作使用。 3.3 肢体动作特征面部表情所表达的信息很直观，在一般的交互场景中直接通过观察交互者的面部表情就可以判断出对方是否想要与机器人进行交互，但在光照条件差、用户面部有遮挡物（如墨镜、口罩、围巾等）的情况下，会使细微的表情变化变得难以观测。而肢体动作具有空间尺度大、变化明显、易于观察等特点，在光照条件不好的状况下仍然可以发挥作用，很好的解决了单纯由面部表情识别带来的问题。 3.3.1 肢体动作识别动作识别实际上属于视频分类任务，因此选择有效的视频分类网络是提取到动作信息有效特征的关键。由于肢体动作的表达在时间上是连续的，一般的神经网络只关注输入数据本身的信息，而忽略了相邻帧在时间维度上的信息。因此，为了得到有效的肢体动作特征，除了空间维度的信息，时间维度的信息也是必须要考虑进去的。与二维卷积网络相比，三维卷积网络以其在三个维度上分别进行卷积和池化的特点能更好地模拟时间信息，以获得更有效的时空特征。图 3-6 展示了使用二维卷积和三维卷积的不同。三维卷积网络的卷积和池化操作是在空间的三个维度上进行的，而在二维卷积网络中只是在平面两个维度上进行。对于一幅输入图像或视频（可以将它们视为连续多帧图像[55] ），经过二维卷积得到的输出仍然是一幅图像，这是因为二维卷积网络在进行每次运算时都不考虑输入信号的时间信息，只有三维卷积保留了时间维度上的信息，从而输出了三维时空特征。使用三维卷积网络学习到的特征只需要经过一个简单的线性分类器就可以获得良好的视频动作分类效果，极大地提升了动作识别结果的准确度，降低了交互意图识别的不确定性。 29 广东工业大学硕士专业学位论文（a）对图片的 2D 卷积操作（b）对视频（连续帧）的 2D 卷积操作（c）对视频（连续帧）的 3D 卷积操作图 3-6 二维卷积和三维卷积的区别 Fig.3-6 The difference between 2D and 3D convolution operations Tran 等人[56] 提出了一个通用、紧凑、简单高效的 C3D 卷积网络，在各项视频分类任务中表现优秀，本文选用 C3D 网络来进行动作信息的识别及提取工作。传统的 3D 卷积需要为每个不同的识别任务去设计专门的网络模型，C3D 网络则不同，它只需从一个视频中便可获取物体、场景和动作相关的信息，使得网络可以灵活的适用于各种视频分类任务，不再需要对不同任务调整模型。 C3D 的网络结构如表 3-4 所示。C3D 网络每个卷积层后面都有一个池化层，使用两个全连接层来展平高维特征向量，最后使用 Softmax 分类器来得到最终的视频标签。通过观察表格可以知道，3D 卷积的每一个卷积核都是三维的 3×3×3 大小，除第一层之外，每个池化层的卷积核也都是三维的 2×2×2 大小，第一个池化层的卷积核大小设置为 1×2×2，以防止过早合并时间信号。为了测试网络的有效性，本文首先在两个大型动作识别数据集 UCF101 上进行预训练，然后将网络迁移到交互意图识别数据集上进行微调，以符合交互意图识别网络的数据特性。经过测试，在 pytorch 深度学习架构下，C3D 网络在 UCF101 数据集上的精度达到了 96.3%，远超数据集 44.5%的 baseline 和其他工作的识别精度，达到了本文所需的精度要求。最后一层 Softmax 的输出改为 1×6，以符合交互意图识别数据集中 6 类不同动作的输出要求。 30 第三章交互意图特征提取表 3-4 C3D 的网络结构 Table. 3-4 The neural network structure of C3D 网络层/步长过滤器形状输出尺寸 Conv1a, Stride=1 3×3×3×64 64×16×112×112 Max Pool, Stride= 1 1×2×2 64×16×56×56 Conv2a, Stride=1 3×3×3×128 128×16×56×56 Max Pool, Stride= 2 2×2×2 128×8×28×28 Conv3a, Stride=1 3×3×3×256 256×8×28×28 Conv3b, Stride=1 3×3×3×256 256×8×28×28 Max Pool, Stride= 2 2×2×2 256×4×14×14 Conv4a, Stride=1 3×3×3×512 512×4×14×14 Conv4b, Stride=1 3×3×3×512 512×4×14×14 Max Pool, Stride= 2 2×2×2 512×2×7×7 Conv5a, Stride=1 3×3×3×512 512×2×7×7 Conv5b, Stride=1 3×3×3×512 512×2×7×7 Max Pool, Stride= 2 2×2×2 512×1×4×4 FC6 —— 1×4096 FC7 —— 1×4096 Softmax 分类器 1×6 使用 C3D 网络在交互意图识别数据集上对肢体动作的识别结果如图 3-7 所示。本文采用抽帧的方法将原始视频数据分解为连续帧之后送入网络进行训练，然后识别出动作类别。与人脸图像的预处理过程相同，这里也采用每 4 帧抽取 1 帧的方法，与人脸图像预处理不同的是，前者是预处理过程和网络训练过程是相互独立的，而动作识别过程中的抽帧操作是与网络运行过程同时进行的，网络一次输入 16 帧图像。每段视频都有 6 种可能的结果，识别为每种动作类别的概率均为（0，1），取 Softmax 层中置信度分数最高的类别作为最终输出类别，并将最终识别结果可视化显示在输入视频上。从图中可以看出，由于训练时送入网络的是连续的图片，因此显示时视频中每一帧动 31 广东工业大学硕士专业学位论文作类别的置信度分数是在动态变化的，而 3D 卷积使网络学习到了时间维度上的特征，因此一整段视频中每一帧的置信度虽然在变化，但识别结果保持一致，构成了一个连续的动作。图 3-7 动作识别结果 Fig.3-7 The results of action recognition 3.3.2 肢体动作特征提取本文使用 C3D 网络作为动作特征提取器对肢体动作特征进行提取。C3D 网络虽然在视频分类任务上取得了优秀的效果，但其在视频数据上的关注区域是变化的，有时关注前景信息，有时依靠背景信息进行分类[56] 。考虑到本文的实际场景要求，交互意图识别数据集里面的数据都是以机器人为第一视角的，交互人员占据视频画面的绝大部分。因此，本文需要网络更多的关注前景信息，对背景信息适当降低权重。因此，为了挖掘更多肢体动作的有效特征，防止网络过多的关注背景信息而对识别精度造成干扰，本文提出了一种融合人体区域信息的动作特征提取网络。网络有两个输入，一个是 C3D 网络的原始输入，另一个是视频数据经过 YOLOv3 人体检测网络处理得到的只保留人体区域的视频帧图像。YOLOv3 是目前轻量级目标检测的最好算法之一[57] ，其网络结构如表 3-5 所示。把这两种输入数据都送入 C3D 网络中进行训练，在经过 C3D 网络的第一个全连接层时对两种输入进行融合，得到融合后的特征再进行一次 3D 卷积操作，最后接一个全连接层输出特征。融合人体区域信息的动作特征提取方法如图 3-8 所示。若没有特殊交代，本文以下所讲的动作特征提取均是指经过人体区域信息融合后的动作特征。 32 第三章交互意图特征提取表 3-5 YOLOv3 网络结构 Table. 3-5 The neural network structure of YOLOv3 网络层/步长过滤器形状输出尺寸 Conv, Stride=1 3×3×32 256×256×32 Conv, Stride=2 3×3×64 128×128×64 Conv, Stride=1 1×1×32 1×Conv, Stride=1 3×3×64 ResBlock 128×128×64 Conv, Stride=2 3×3×128 Conv, Stride=1 1×1×64 2×Conv, Stride=1 3×3×128 ResBlock 64×64×128 64×64×128 Conv, Stride=2 3×3×256 Conv, Stride=1 1×1×128 8×Conv, Stride=1 3×3×256 ResBlock 32×32×256 32×32×256 Conv, Stride=2 3×3×512 Conv, Stride=1 1×1×256 8×Conv, Stride=1 3×3×512 ResBlock 16×16×512 16×16×512 Conv, Stride=2 3×3×1024 Conv, Stride=1 1×1×512 4×Conv, Stride=1 3×3×1024 ResBlock 8×8×1024 8×8×1024 Average Pool, Stride=8 8×8 1×1×1024 FC Layer 1×1×1000 1×1×1000 Softmax 分类器 33 广东工业大学硕士专业学位论文图 3-8 人体区域信息融合网络结构 Fig.3-8 The architecture of body region information fusion network （1）特征层特征本文使用上述融合人体区域信息的特征提取方法来提取交互意图识别数据集中的高维动作特征，在这里，融合网络第二个全连接层的输出被作为特征层特征保存下来。全连接层的 4096 维特征虽然可以全面的描述动作信息，但过多的参数会占用太多存储空间，拖慢网络运算速度。另外，此阶段所得到的动作特征是经过人体区域信息融合之后的，已经包含了大量的有效信息，过多的特征参数反而会造成特征冗余，影响交互意图识别精度，因此没有必要保留全部 4096 维的特征。与表情特征类似，本文将人体区域信息融合网络的第二个全连接层输出维度由 4096 维改为 512 维，这样即极大保留了有效的动作特征，也使得网络运算速度加快，减少特征冗余，提升交互意图识别精度。特征层特征的保存格式如公式（3.4）所示。 ⎡ ⎢ ⎢ ⎢ ⎣ 其中， , , , , ⋯ ⋯ , , ⋮ ( ), ( , ), , ⋯ ⋯ ( ), , ⎤ ⎥ ⎥ ⎥ ⎦ (3.4) 表示视频编号，m ∈ (1, 3528)，即交互意图识别数据集中总的视频数量，f 表示按时间排列的图片的帧数， , 表示视频第 n 帧的第 i 个特征，i ∈ (0, 511)。（2）决策层特征本文将 Softmax 层的置信度分数作为动作特征的决策层特征参数保存下来。由于 34 第三章交互意图特征提取交互意图识别数据集中有 6 类基本动作，故 C3D 网络 Softmax 层的特征维数为 6，置信度分数区间均为（0，1），决策层特征保存格式如公式（3.5）所示。 ⎡ ⎢ ⎢ ⎢ ⎣ 其中， , , , , , , , , , , , , ⋮ ( ), , ( ), ( , ), , ( ), , ( ), , ( ), , ⎤ ⎥ ⎥ ⎥ ⎦ (3.5) 表示视频编号，m ∈ (1, 3528)，即交互意图识别数据集中总的视频数量，f 表示按时间排列的图片的帧数， , 表示动作决策层的特征参数，i ∈ [0, 1, 2, 3, 4, 5]。 3.4 人脸角度特征人脸角度反映了人脸面对摄像头的偏转程度，考虑到实际交互场景中交互者并不总是正脸面对摄像头，在交互者侧脸的情况下，人脸角度信息可以辅助交互意图判别。 3.4.1 人脸角度的引入交互意图识别数据集中包含了交互者的面部表情和肢体动作。由于表情变化与肢体动作相比比较细微，本身就比肢体动作难以分辨，另外，为了保证交互过程的自然性，本文不对交互过程的表达做任何限制，因此有些交互者在进行交互的过程中会出现不同程度的侧脸、低头等情况，使得面部表情更加难以观测，为表情识别带来干扰。为了弥补表情特征观测不准确引起的识别精度低、识别结果不准确问题，本文引入了人脸角度特征，通过计算人脸角度数值来判定用户的交互意图，根据第一章心理学研究的基础可知，若用户对某个物体感兴趣，那么会直视该物体并呈现靠近趋势，若用户对某个物体感到害怕，则会快速偏转面部移开视线。基于此理论，本文设定在人脸角度数值在 RPY 任一方向上大于 20°时则认为交互对象没有兴趣与机器人交互。通过引入人脸角度特征以达到准确的识别结果，解决人脸角度偏转带来的表情识别不准确问题，增强交互意图识别模型的鲁棒性和泛化能力。 3.4.2 人脸角度检测人脸角度检测过程一般分为两步，首先进行人脸关键点检测，然后从检测到的人脸关键点中回归得到人脸的 3 维 RPY 角度。传统的人脸角度检测通常使用手工特征， 35 广东工业大学硕士专业学位论文联合关键点和人脸真值标志点进行预测，预测精度极大的依赖人脸关键点的识别精度。随着深度学习的发展，挖掘图像深层次特征使得关键点检测的质量大大提高，但分两步的检测方法还是过于繁琐。Ruiz 等人提出了一种利用深度学习直接从图像中获取人脸角度的方法[58] ，不同于其他卷积网络使用均方误差损失直接回归得出三个欧拉角的方法，该方法不需要依赖人脸关键点，通过对每个方向的角度分别计算损失函数来得到人脸三个方向的欧拉角，对各种异常状况干扰下的人脸角度都有很好的识别精度。因此，本文使用 Ruiz 等人所提出的方法作为人脸角度特征提取器，该人脸角度特征提取器使用 Resnet50 作为网络的 backbone， Resnet50 的网络结构在 3.2.1 小节有详细的描述，此处不再赘述。这种方法背后的思想是，使用比较稳定的 Softmax 层和交叉熵损失函数先对每个方向上的姿态进行二分类，即先在每个方向上识别人脸是否正对画面，然后分别再计算三个方向上的交叉熵损失函数，这样就有三个信号反向传播到网络中，从而提高网络的学习效率。为了得到更精确的结果，网络还计算了每个角度预期的输出与姿态二分类结果之间的误差，来构成每个角度的总误差，网络结构如图 3-9 所示。图 3-9 人脸角度特征网络结构 Fig.3-9 The network architecture of face angle 该网络的检测效果以及应用于交互意图识别数据集的检测效果如图 3-10 所示，蓝色轴指向人脸的正面，绿色轴指向地面，红色轴指向人脸侧面，三个轴构成一个三维坐标系。从图中可以看出，该方法对人脸姿态偏转、遮挡以及光照条件不好的情况都具有良好的鲁棒性，对分辨率较低的图片同样具有优秀的检测效果，对于交互意图识别数据集中交互对象的侧脸角度也具有很高的检测精度，可以满足本文任务要求，进 36 第三章交互意图特征提取行接下来的人脸角度特征提取工作。（a）人脸角度检测效果（b）在交互意图识别数据集上的检测效果图 3-10 人脸角度网络检测效果展示 Fig.3-10 The images of face angle detection result 3.4.3 人脸角度特征提取（1）特征层特征与前两种信息类似，本文对人脸角度特征也分别保存特征层特征和决策层特征。本文保存的人脸角度特征层特征是图像经过 ResNet50 网络卷积之后的全连接层特征，共 1000 个特征向量，保存格式如公式（3.6）所示。 ⎡ ⎢ ⎢ ⎢ ⎣ , , , , ( ), , ( ⋯ ⋯ ⋮ ⋯ ⋯ ), , 其中，N 为人脸图片数据集的总数，n∈ (0, N)， , , , , ( ), , , ( ), , ⎤ ⎥ ⎥ ⎥ ⎦ (3.6) 表示第 n 张图片的第 i 个特征。（2）决策层特征由于人脸角度检测器同时进行分类和回归操作，通过分类得到人脸的欧拉角，通过回归得到人脸坐标轴，对于本文的任务要求，只需要得到人脸在 RPY 三个方向上的欧拉角即可，不需要保存坐标轴的信息，故在此阶段只保存 Softmax 层的输出中三个 37 广东工业大学硕士专业学位论文欧拉角的数值，保存格式如公式（3.7）所示。 ⎡ ⎢ ⎢ ⎢ ⎣ , , , , , , ⋮ ( ), ( ), , ( ), , 其中，N 为人脸图像数据集的图片总数，n∈ (0, N)， , , ⎤ ⎥ ⎥ ⎥ ⎦ (3.7) 表示第 n 张图片的第 i 个特征， i∈ [0, 1, 2]，即人脸的三个角度，得到的人脸角度特征将用于第四章特征融合工作。 3.5 特征性能比较为了测试单个特征在交互意图识别中的效果，用三层感知机对提取到的面部表情特征、肢体动作特征和人脸角度特征进行分类。选择分类任务中常用的 F1 分数作为评价指标，计算公式如（3.7）所示。 = ⎧ ⎪ = ⎨ ⎪ 1 ⎩ （3.8） =2× × 其中，p 表示精确率（precision），r 表示召回率（recall）, TP（Ture Positive）是真阳性，指的是预测值与真实值相同，在本文指交互意图识别为有交互意图，且真实标签也为有交互意图；FP（False Positive）代表假阳性，在本文是指预测值为有交互意图（标签 1）但真实标签为无交互意图（标签 0）；FN（False Negative）是假阴性，在本文指预测值为无交互意图（标签 0）但真实标签为有交互意图（标签 1）。在分类任务中，仅使用精度作为评价指标是不够的。F1 分数同时兼顾了识别精度和召回率，通过对二者的调和平均，可以准确的评判分类结果的好坏。表 3-6 单一类型特征分类结果 Table. 3-6 The results of single type classification 特征信息特征层特征（F1 分数%）决策层特征（F1 分数%）面部表情 57.43 66.36 肢体动作 78.69 82.51 人脸角度 58.37 79.83 38 第三章交互意图特征提取从表 3-6 中可以看出，决策层特征的分类效果要优于特征层特征，肢体动作的识别结果优于面部表情的结果，但单一类型的特征在交互意图识别中效果均不突出，人脸角度特征在单独分类效果也并未展现出优势，因此有必要探究不同特征的融合方法来改善网络的识别精度。 3.6 本章小结本章首先对面部表情信息和肢体动作信息进行了特征提取，对这两类信息分别提取了特征层特征和决策层特征，其中两类信息的特征层特征均为 512 维，决策层特征分别为 7 维和 6 维。为了弥补在表情特征异常状况下的误差，引入了人脸角度特征来提升交互意图识别模型的鲁棒性，提取了人脸角度的 1000 维特征层特征和 3 维决策层特征。最后通过简单的分类实验来观察单一类型特征的识别结果，为下一步特征融合打下了基础。 39 广东工业大学硕士专业学位论文第四章交互意图识别特征融合本章在前文特征提取工作的基础上探究有效的特征融合方法。首先对交互意图整体识别框架进行了介绍，接着对特征融合的常用方法进行了简单回顾，最后介绍本文所使用的基于注意力机制的特征融合方法，探索了基于注意力机制的三种不同特征融合方法。 4.1 交互意图识别模型框架在现实交互场景中，交互者的情感意图状态会受到许多因素的干扰，特别是对于视觉信息，极易受到诸如遮挡、角度、光照等因素的干扰，仅依靠单一信息进行交互意图识别的准确性和鲁棒性效果很差，因此有必要结合其他特征进行交互意图识别。本文针对不同特征使用专门的特征提取网络去挖掘不同信息的代表性特征，并使用有效的融合网络来提升交互意图识别模型的鲁棒性，降低交互意图识别结果的不确定性。整体的交互意图识别模型框架如图 4-1 所示。图 4-1 交互意图识别模型整体框架 Fig.4-1 The whole frame of interaction intention recognition model 40 第四章交互意图识别特征融合本文的交互意图识别模型总共由三大模块组成，首先是数据预处理模块，这个阶段把数据集中的视频分解为连续帧，以供下一步特征提取模块使用；第二是特征提取模块，这个阶段针对不同信息本身的特性，使用不同的特征提取网络获得代表性特征；最后是特征融合模块，这一阶段使用前面提取到的不同特征，以有效的方法进行融合，得到交互意图识别结果。关于数据集构建及处理、特征提取部分的主要工作已经在第二章和第三章做了详细的介绍，本章主要介绍特征融合模块的工作。经过对信息融合方法的调研，实验对比了多种融合方法的性能，最终选用了注意力机制作为本文的特征融合方法。 4.2 信息融合方法介绍信息融合是指将不同来源、属性、形状等有差异性的信息，通过计算机技术手段发掘其中最具有代表性和互补性的特征，将其融合在一起形成新的有效特征。信息融合可以使用两种或两种以上的特征，使用的特征种类越多，信息的来源就越广泛，但不同类型信息的选取并非越多越好，对于不同特征，在提取其中有效信息的同时，也会引入不同特征中的噪声，反而会影响其他类型的信息，降低结果的准确性。因此，如何选取信息并进行有效的特征融合是目前信息融合领域的难点。根据融合操作进行的不同阶段，信息融合方法大致分类三大类：早期融合、中期融合和后期融合，下面分别对三类融合方法做简单的介绍。（1）早期融合（Early Fusion）是指将获取到的不同来源、属性、形状的特征不加以任何处理，在数据层面直接进行融合，然后再送入后续网络的一种信息融合方法，其处理过程如图 4-2 所示。早期融合直接融合未经处理的原始数据，往往会引入大量的无效信息和噪声干扰，网络很难从中学到有效信息，因此很少被应用。图 4-2 早期融合策略流程图 Fig.4-2 Flow chart of early fusion 41 广东工业大学硕士专业学位论文（2）中期融合（Intermediate Fusion）是指将获取到的不同类型的信息经过适当的特征提取网络得到处理后特征，然后对不同特征进行融合，送入分类网络进行训练，最后得到分类结果，其工作流程如图 4-3 所示。中期融合方法对原始数据经过适当处理，网络可以学习到不同类型信息之间的互补性，所得到的特征具有一定的代表性，本文在后续的实验中也设置了基于中期融合的方法，以对不同特征进行融合，分析其交互意图识别效果。图 4-3 中期融合策略流程图 Fig.4-3 Flow chart of intermediate fusion （3）后期融合（Late Fusion）是指将不同类型的信息经过不同的神经网络进行特征提取、分类，分别得到各自的决策结果，然后经过特定的网络将多个决策结果进行一定的算法综合，得到最终的决策结果，其工作流程如图 4-4 所示。后期融合常见的方法有分类器求和规则、分类器求积规则、集成学习等。后期融合方法从单个特征的决策结果入手，决策结果的特征维数低，一定程度减弱了在高维特征阶段融合时的误差累积现象，而且通过不同的训练网络得到决策结果，充分利用了不同模型在挖掘不同类型数据特征方面的优势，有效提升了融合后特征的性能。本文在后续的实验中也设置了基于后期融合策略的实验，以用来和中期融合实验作对照，对比不同阶段特征的性能。图 4-4 后期融合策略流程图 Fig.4-4 Flow chart of late fusion 42 第四章交互意图识别特征融合 4.3 基于注意力机制的特征融合策略注意力机制最先应用于自然语言识别领域，其应用非常广泛，相关技术也十分成熟，于是有学者开始将注意力机制引入计算机视觉领域，在不同任务上的表现也取得了瞩目的效果。深度学习中的注意力机制模拟人类大脑在观察场景时有选择性的关注场景中的某个物体的机制，即在神经网络的运算过程中，选择性的增加关注区域特征的权重，降低非关注区域特征的权重，最后经过加权平均来得到融合后的新特征，是一种关注输入权重分配的池化方法。对于本文中不同类型的特征，若能有选择性的关注其中变化比较大的特征，进而调整其权重分配，这对于模型识别结果以及运算速度都有极大的帮助，所以本文选择注意力机制来进行特征的融合分类，使模型获得更好的分类效果。 4.3.1 注意力机制的原理及计算方法注意力机制模型的经典框架就是自然语言处理中的 Encoder-Decoder 框架，示意图如图 4-5 所示。后续许多注意力模型都是基于这个框架演变出来的。对于 Encoder-Decoder 框架，总体可以看作将一个语句转换成另一个语句的处理过程，用 s(source)表示原转换前语句，t(target)表示转换后的语句，记为： s=[ , ,…, ]，t = [ , ,…, （4.1） ] 那么 Encoder-Decoder 的过程就是将 source 转换为 target 的具体过程。其中，Encoder 是将原始语句转换为中间语义 C，Decoder 就是根据中间语义 C 和历史信息来解码出新的语句，公式表示如下： C=F( , ,…, )， = ( , , ,…, （4.2） ) 公式中 C 代表中间语义，G 代表 Decoder 在当前时刻的解码操作。 x1 x2 Encoder x3 中间语义C x1 编码操作图 4-5 Encoder-Decoder 框架 Fig.4-5 The framework of Encoder-Decoder 43 x2 Decoder x3 广东工业大学硕士专业学位论文上述 Encoder-Decoder 框架虽然是文本处理中的经典框架，但并没有体现注意力机制，因为对于原转换前语句中的每一个词来说，在转换后语句中的权重都是相同的，并没有对权重进行调整，但该框架仍然可以作为注意力机制在计算机视觉领域的启发。注意力机制的本质思想如图 4-6 所示，将原始语句 source 中的元素结构以<key, value> 的形式表示，对于 target 中的元素，给其分配索引值 Query，通过计算索引值 Query 和键值 key 的权重系数，再进行加权求和就可以得到注意力的数值，用公式表示为： ( , )=∑ ( , 其中 A 代表 Attention，Q 代表 Query，s 为 source, （4.3） )∗ 指代 source 的长度，S 代表 Similarity,k 代表 key，V 代表 Value。通过公式可以看出，注意力机制就是从非常多的信息中筛选出重点信息对其加以关注，同时弱化对不重要信息的关注，这点体现在公式中的权重分配上。 key1 key2 key3 key4 key5 Query Attention Value value1 value2 value3 value4 value5 图 4-6 注意力机制的本质思想 Fig.4-6 The essence of attention mechanism 目前主流的注意力机制计算主要分为三个阶段：第一步：根据索引值 Query 和键值 key 来计算两者的相关性，常用的方法有三种：点积方法、余弦相似性方法以及多层感知机网络，计算公式如（4.4）所示： ( , )= ∗ ( , )= ‖ ∗ ‖∗‖ ‖ ( , )= ( ∗ （4.4） ) 第二步：使用 softmax 函数对上一步求得的相似性或相关性进行归一化处理，使转换后元素的概率分布权重之和为 1，计算公式如（4.5）所示： 44 第四章交互意图识别特征融合 ( = 第三步：对第二步得到的 )= （4.5） ∑ 的权重系数进行加权求和就能得到 Attention 的数值，计算公式如（4.6）所示： ( , )=∑ （4.6） ∗ 4.3.2 注意力机制的不同融合策略本文构建的注意力机制融合框架如图 4-7 所示，提取到的三种特征经过一个注意力层之后得到融合后特征，使用三层感知机对融合后特征进行分类，得到最终的意图识别结果，由于特征提取环节在第三章已经有详细的介绍，用于分类的三层感知机结构也相对简单，在第五章实验部分会有介绍，故本节的重点是介绍特征在注意力层进行了哪些运算。图 4-7 基于注意力机制的融合框架 Fig.4-7 The fusion framework based on attention mechanism 在将提取到的面部表情特征（记为征（记为）、肢体动作特征（记为）以及人脸角度特）输入分类网络之前，本文基于注意力机制提出了三种不同的计算方法来将这些特征融合在一起，以探究效果最好的注意力方法。（1）特征拼接（Concatenation）特征拼接是一种被许多研究学者广泛使用的一种标准的特征级融合方法，该方法将单个特征串联起来形成新的特征，即 =[ 入分类网络进行分类。（2）层级注意力（Hierarchical Attention） 45 , , ]，将融合后的特征送广东工业大学硕士专业学位论文使用层级注意力关注单个特征，这样可以最大限度的使不同特征之间的相关信息传播到网络中。在使用更高层次的注意力之前，本文首先使用低层次注意力关注成对的单个特征，即面部表情特征-人脸角度特征，面部表情特征-肢体动作特征，人脸角度特征-肢体动作特征，对单个特征进行线性投影到相同的向量空间，以便他们具有相同的维数，即： = = = 其中， × ∈ 维度空间，， × ∈ + + + ，（4.7） × ∈ ， , , 分别为三种特征本身的为投影空间的维度。经过投影后的向量两两结合，通过一个选择注意力机制得到最后的融合特征： = ( ( ) （4.8） )=∑ … 其中，q 是每种特征的可学习参数，i∈ [1, 2, 3]代表三个不同特征的索引值，由此得到最后的融合后特征为： = ( = ( = ( , , , = ( 将按照此种方法得到的融合后特征 ) ) ) , （4.9） , ) 送入分类网络进行分类。（3）自注意力（Self-Attention）针对本文中提取的三种特征，本文还提出了一种自注意力融合策略来计算融合后特征，使不同特征之间的信息可以相互关注。对于自注意力方法，首先进行和公式（4.7）一样的线性投影操作，将这些特征映射到相同的向量空间，然后将映射后的特征拼接起来，即 =[ 空间，表示为 , = , ] ，拼接后的特征再经过一个多头三路投影，投影到新的向量 ∈ × ，其中， ∈ × ，是每个投影空间的维度，i=[1, 2, 3]是三种不同特征的索引。经过对特征的两次投影变换后，利用自注意力机制来发掘特征之间的互补关系，学习不同特征之间的共性知识。使用自注意力机制的融合后特征通过公式（4.10）计算获得： 46 第四章交互意图识别特征融合 = ( ( ) ) （4.10） = =∑ 其中， ∈ [ ] [ , ∶] 仍然为每种特征的可学习参数，i 表示第 i 次线性投影，所有投影后的特征经过拼接得到融合后的特征，表示为 =[ , ,…, ]，p 代表应用投影的次数。 4.4 本章小结本章首先对信息融合的理论及常见方法进行了简单介绍，主要探讨了特征融合的方法及具体框架，设计了基于注意力机制的特征融合网络。注意力机制可以对特征中的重要信息加以关注，对次要信息进行适当忽略，从而加快网络训练速度。为了对比不同注意力机制方法的分类效果，本章提出了三种不同的特征融合计算方法，之后使用三层感知机网络对融合后的特征进行分类，通过引入注意力机制可以提升交互意图识别模型的准确率。 47 广东工业大学硕士专业学位论文第五章实验及结果分析本章主要通过一系列实验来验证前文特征融合方法的有效性，通过第三章提取的不同阶段的特征，设置了特征对比实验，通过第四章提出的不同特征融合方法，设置了融合策略选择实验，最后将本文提出的交互意图识别模型部署到机器人上，设计人机互动实验加以验证。 5.1 特征对比实验为了研究不同阶段特征的效果，验证多个特征对于单个特征的优势，以及人脸角度特征的引入对识别结果的改善，本节设置了三个实验测试组，分别为：  单特征的特征层和决策层对比试验  多特征不引入人脸角度的特征层和决策层对比试验  多特征引入人脸角度的特征层和决策层对比试验实验测试组的详细设置如表 5-1 所示。表 5-1 特征对比实验测试组设置 Table. 5-1 The setting of test group in feature comparison experiment 测试组特征层次特征信息识别方法表情特征 VGG19 动作特征 C3D 人脸角度特征 ResNet50 表情特征 VGG19 动作特征 C3D 人脸角度特征 HopeNet 特征层特征单特征决策层特征不引入特征层特征表情特征+动作特征 Concatenation+MLP 人脸角度决策层特征表情特征+动作特征 Concatenation+MLP 引入特征层特征表情特征+动作特征+角度特征 Concatenation+MLP 人脸角度决策层特征表情特征+动作特征+角度特征 Concatenation+MLP 多特征 48 第五章实验及结果分析对于单特征的识别方法，采用的仍然是进行单个特征提取时所用的网络，网络模型的结构和参数均相同，以保证单特征模型和多特征模型之间的区别只有在怎样利用提取到的特征，具体来讲就是，单特征模型就只利用单一特征进行交互意图识别，多特征模型是对单特征模型提取到的特征进行二次计算，将不同特征组合起来再进行交互意图识别，除此之外无其他方面的差异。对于多特征的识别方法，采用了先将特征拼接起来再利用多层感知机进行分类的方法，实验中所使用的多层感知机为三层，其结构除输入尺寸会随特征尺寸变动外，其他结构在所有时刻均保持一致，三层感知机的结构及参数如表 5-2 所示。表 5-2 三层感知机的结构及参数 Table. 5-2 The structure and paremeters of 3-layer perception 网络层输入尺寸输出尺寸参数全连接层 1 512 256 Activation=’relu’ 批量标准化 1 - - Batchsize=512 Dropout1 - - Keep_prob=0.5 全连接层 2 256 256 Activation=’relu’ 批量标准化 2 - - Batchsize=512 Dropout2 - - Keep_prob=0.5 全连接层 3 256 2 Activation=’softmax’ 需要注意的是，这一系列的实验目的是为了探究第三章所提取的特征层特征和决策层特征等不同阶段、不同种类的特征对于交互意图的识别效果，对比单特征和多个特征哪种方法效果较好，因此用的识别方法相对简单，并且在此阶段不引入注意力机制。经过实验选出最好结果之后，再与基于注意力机制的特征融合策略进行比较，特征对比实验的结果如表 5-3 所示。选择 F1 分数作为评价指标，有关评价指标的详细解释可从第三章第五小节中查看。从表中可以看出，在使用单个特征进行交互意图识别的实验测试组中，效果最好的由使用动作信息的决策层特征获得，为 82.51%，最差的结果是使用表情信息的特征层，为 57.43%。实验结果说明，相比于表情信息，动作特征具有更大的空间尺度，对光照、 49 广东工业大学硕士专业学位论文视角变化等具有一定的鲁棒性，在识别难度上小于小尺度的表情特征，但是单一动作特征传达的交互意图并不准确，全部的交互意图结果并不能由单一的动作特征来判别，因此还存在一部分的误差，这一结果与第三章的单特征识别结果相符，说明探究多特征融合方法进行交互意图识别是必要的。表 5-3 特征对比实验结果 Table. 5-3 The results of feature comparison 识别方法 F1 分数 (%) 表情特征 VGG19 57.43 动作特征 C3D 78.69 人脸角度特征 ResNet50 58.37 表情特征 VGG19 66.36 动作特征 C3D 82.51 人脸角度特征 HopeNet 79.83 特征层特征表情+动作 Concatenation+MLP 62.84 人脸角度决策层特征表情+动作 Concatenation+MLP 引入特征层特征表情+动作+角度 Concatenation+MLP 71.12 人脸角度决策层特征表情+动作+角度 Concatenation+MLP 86.95 测试组特征层次特征层特征特征信息单特征决策层特征不引入多 84.33 特征在使用多特征的实验测试组中，本文又分别研究了引入人脸角度特征和不引入人脸角度特征对交互意图识别模型的影响。从实验结果可以看出，在不引入人脸角度特征的测试组里面，由表情和动作信息的决策层特征拼接得到的交互意图识别结果要优于两种信息的特征层特征拼接得到的结果。在两种信息的特征层特征拼接实验中，两种特征拼接起来的效果反而差于由单一动作信息的特征层特征得到的结果，同样低于表情和动作信息决策层特征得到的结果，仅优于单一表情信息特征层特征的结果。通过对实验结果分析，特征层特征的维度高，若不经任何处理直接进行特征拼接，虽然两种信息之中有用的特征被拼接起来了，但两种信息里面的噪声也被拼接起来了，反而会降低识别精度，而决策层特征维数低，本身含有的噪声较少，故经过特征拼接之 50 第五章实验及结果分析后对精度提升有一定的帮助。在引入人脸角度特征的实验测试组里面，最好的结果由三种信息的决策层特征拼接得到，为 86.95%。而三种信息的特征层特征拼接得到的 F1 分数只有 71.12%，低于不引入人脸角度特征的两种信息决策层拼接结果，也低于单一动作特征的识别结果，对实验结果进行分析，得到的结论与不引入人脸角度特征相同，在特征拼接的同时，特征中包含的无用信息以及干扰信息都被拼接起来了，影响最终的识别精度。通过对多特征的两个实验测试组的对比可以看出，人脸角度特征的引入对交互意图识别结果有明显的提升，尽管是在特征层特征拼接这种引入噪声的情况下，人脸角度的引入也带来了 8.28%的提升，在决策层特征拼接的实验中带来了 2.62%的提升，这里由于决策层特征拼接引入的噪声少，故提升程度不如特征层特征拼接明显，但可以看出的是，人脸角度特征的引入确实可以帮助提升交互意图识别精度，降低识别结果的不确定性。整个实验测试组最好的结果由表情和动作以及人脸角度三种信息的决策层特征得到，F1 分数为 86.95%，简单的特征拼接与符合现实场景使用要求还有一定差距，因此探讨合适的特征融合方法是必不可少的。 5.2 最佳融合策略选择上述实验验证了多个特征融合的必要性，故本节的实验主要针对多个特征的融合，从融合方法本身进行探讨，对单特征不再设置单独实验。由于决策层特征维数低，难以对其再进行转换操作，且决策层特征已基本获得单一信息的交互意图识别结果，因此再进行融合意义不大，本节特征融合面向的是提取到的特征层特征，按照第四章所提出的三种基于注意力机制的融合方法进行实验，为探究不同融合方法的优劣，本节设置了两个实验测试组，分别为：  不引入人脸角度的注意力机制融合对比试验  引入人脸角度的注意力机制融合对比试验实验测试组的详细设置如表 5-4 所示。对实验进行分析可以看出，在不引入人脸角度特征的测试组中，简单的特征拼接得到的结果最差，F1 分数为 62.84%，符合前一阶段的实验结果。在层级注意力和自注意力两种融合方法中，层级注意力的 F1 分数比自注意力的 F1 分数高 4.31%，说明自 51 广东工业大学硕士专业学位论文注意力机制虽然可以更多的关注特征本身信息，捕捉特征长距离信息的内部相关性，但在本文的交互意图识别数据集上，由于融合的特征较多，且有些特征在时间维度并不连续，故自注意力机制并没有发挥其优势，反而是自下而上的层级注意力表现较好。表 5-4 不同注意力机制对比实验结果 Table. 5-4 The results of different attention mechanism comparison 测试组特征信息识别方法 F1 分数（%） Concatenation 62.84 Hierachical attention 86.29 Self-attention 81.98 Concatenation 71.12 Hierachical attention 93.68 Self-attention 87.51 不引入表情特征+动作特征人脸角度特征引入表情特征+动作特征人脸角度特征 +人脸角度特征在引入人脸角度特征的实验测试组中，最好的结果仍然由层级注意力融合方法得到，F1 分数为 93.68%，也是目前的最好结果。在加入人脸角度特征之后，三种融合方法与不加入人脸角度特征的方法相比均有提升， F1 分数分别提升了 8.28%、7.39%和 5.53%。实验结果说明，这种自下而上的层级注意力方法可以使网络能够更有选择性的增加有用特征的权重，降低无用特征的权重，使网络更多的关注有用特征。在交互意图识别数据集中的表现就是网络更多的关注随表情变化而改变的表情特征和表达一个交互动作时交互者的手臂运动位置等。对于人脸角度特征的引入，对比使用层级注意力融合方法的实验测试组，可以发现，引入了人脸角度特征的交互意图识别结果比不引入人脸特征的对照组 F1 分数高出 7.39%，说明人脸角度的引入确实可以帮助识别由侧脸、遮挡、光线等干扰因素引起的表情特征难以识别的情况，进而增加交互意图识别模型在多场景中的鲁棒性。在上一节的特征对比实验中，由表情、动作和人脸角度特征的决策层特征拼接取得了较好的交互意图识别结果，本文对比了使用决策层特征的结果和使用层级注意力机制融合特征的结果，如表 5-5 所示。从表中可以看出，尽管决策层特征经过针对单个特征的专门特征提取网络，已经最大化的包含了单个特征中的有效信息，但与层级 52 第五章实验及结果分析注意力机制对比起来还是有一定差距，进一步证明了经过一层注意力机制的运算，还可以再次挖掘特征中的有效信息，获得比识别单一特征的网络还要好的结果，验证了本文所提出的先进行特征提取，再对提取到的特征进行融合的交互意图识别方法的有效性。经过一系列的对比试验，从特征本身出发，选择出识别结果最好的是引入人脸角度的三种信息的决策层特征；从融合方法出发，识别结果最好的是基于层级注意力机制的融合方法，得到了本文的最好结果，F1 分数为 93.68%。由于这一系列的实验都是所提方法自身的对比，缺少与同领域内先进工作的对比，因此下一节将会补充本文所提方法与其他先进工作的实验结果对比。表 5-5 决策层融合与层级注意力机制融合的实验对比结果 Table. 5-5 The comparison results of decision-level fusion and hierarchical attention mechanism fusion 测试组特征信息不引入识别方法 F1 分数% 层级注意力融合 86.29 决策层特征拼接 84.33 表情特征+动作特征人脸角度特征引入表情特征+动作特征层级注意力融合 93.68 人脸角度特征 +人脸角度特征决策层特征拼接 86.95 5.3 基于情感信息的交互意图识别结果 5.3.1 评价标准由于交互意图识别工作的任务指向性强，通常面对特定的任务展开研究，不同的工作所使用的数据集、方法都各不相同，且没有统一的标准数据集进行验证，因此很难有一套统一的对比评价方法。为了与其他工作进行相对公平的比较，本文选择在人机交互领域内使用视觉信息的相关研究工作进行比较，在数据获取的便捷程度、所使用特征信息的准确程度、交互意图识别方法的复杂程度以及最终识别精度或 F1 分数等几个方面进行对比。 53 广东工业大学硕士专业学位论文 5.3.2 实验结果本文使用的硬件设备为操作系统是 Ubuntu18.04 的工作站，配备两块 TitanX GPU，软件环境包括 pycharm 编译器，编程语言是 python，所有的特征提取网络的训练以及特征提取操作都是在深度学习 pytorch 框架下进行的。对识别结果进行可视化，效果如图 5-1 所示，上方一行图片是识别为无交互意图的情况，下方一行图片是识别为有交互意图的情况。从图中可以看出，对于一段连续的视频，交互者的表情状态在这段时间内是统一的，不会出现突然的转变，动作在时空维度上的变化较大，在完成一个交互动作的这一段时间内，交互者整体的情感状态保持一致，即正向表情一般会伴随趋近动作，负向表情会伴随回避动作。图 5-1 交互意图识别可视化结果 Fig.5-1 The visualization result of interaction intention recognition 帧数 1 帧数 2 帧数 3 帧数 4 图 5-2 有交互意图识别结果的某几帧 Fig.5-2 Some frames of strong interaction intention 54 第五章实验及结果分析在可视化结果中，交互意图识别结果显示在视频的左上角最上面一行，下面分别为表情识别结果、动作识别结果及置信度三个子字幕。对于识别为有交互意图和无交互意图的结果，按时间顺序随机抽取几帧对其进行分析，如图 5-2 和 5-3 所示。在有交互意图的识别结果中，从图 5-2 中可以看到，交互者正脸朝向屏幕，进行握手的交互动作，面部没有发生特别大的偏转，人脸角度识别结果为较小的偏转角度，表情清晰可见。交互者的表情为正向表情（开心），肢体动作为接近趋向动作（握手），故最终的交互意图识别结果为有交互意图，且每一帧的置信度分数都在 0.95 以上。帧数 1 帧数 2 帧数 3 帧数 4 帧数 5 帧数 6 图 5-3 无交互意图识别结果的某几帧 Fig.5-3 Some frames of no interaction intention 在无交互意图的识别结果中，从图 5-3 中可以看到，交互者的面部发生了较大的偏转，表现了双手推开的肢体动作。在这个示例中，仅视频开头和结尾很短的时刻可 55 广东工业大学硕士专业学位论文以看清楚交互者的面部表情，在视频中间时刻交互者的面部甚至是被完全遮挡住的。人脸角度检测出了较大的偏转角度，P 方向上角度达到了 20.4°，R 方向角度达到 36°。在面部不可见的时刻，人脸角度检测器失效，在面部重新可见时人脸角度检测器立刻重新捕捉到面部并检测出角度。由于在整段视频中大部分时间面部是不可见的，表情识别出现误差，该段视频中交互者的表情标签为厌恶，但结果却被识别为中性。交互者的肢体动作为回避趋向动作，出现了较大的面部偏转，此时人脸角度特征弥补了表情特征的误差，最终意图识别结果正确，为无交互意图。其中在人脸不可见的几帧中，置信度分数也并没有下降，验证了人脸角度特征的引入对于表情异常的情况是鲁棒的。 5.3.3 与同类型先进工作的对比交互意图识别涵盖的范围很大，不同工作使用的信息也各不相同，为了使其他工作与本文工作有合理的比较，本文选择同样使用视觉信息的先进工作来进行对比。回顾使用视觉信息的交互意图识别领域内的现有研究工作，大多都采用人面部（头部姿态、人眼视线、面部表情等）和身体（手势、手臂运动、身体姿态、肢体动作等）所传达的信息。在 5.2 小节中，本文通过实验对比选出了最佳的特征融合方法，得到了最好的结果，F1 分数为 93.68%。由于交互意图识别没有统一的标准数据集，为了公平的对比，本文还采用了与其他先进工作同样的方法进行了实验，以 Accuracy 和 F1 分数作为评价指标，将本文工作与其他交互意图识别的先进工作进行对比，对比结果如表 5-6 所示。在表 5-6 中，Hu 等人提出了一种使用人眼视线信息进行交互意图识别的方法，该方法观察交互者在访问不同组织结构的信息时，眼睛的运动特征存在显著差异的特点，提取眼睛的运动特征，对视线的扫视和注视进行量化，最后使用 SVM 分类器进行分类。对比本文所提出的方法，使用同样的 SVM 分类器，本文所用的表情+动作+人脸角度的特征在精度上高出该方法 18.37%，说明仅使用单一的特征是存在一定不足的。在同样与本文使用面部和身体特征的交互意图识别研究中，分别选用了使用视频和关键点两种方式的先进工作进行对比。Zhang 等人提出了一种使用卷积神经网络来提取交互者面部和肢体的图像特征，然后使用 LSTM 网络进行分类的方法，来判断交互者是否想加入一场对话。与本文类似，该方法的判别步骤也是先通过卷积神经网络进 56 第五章实验及结果分析行特征提取，对于提取到的特征进行处理后再融合。对比本文所提出的方法，使用与该工作同样的 LSTM 网络来处理提取到的特征，本文的方法在 Accuracy 和 F1 分数上分别高出该工作 2.46%和 0.57%，说明本工作还是存在一定的优势。表 5-6 决策层融合与层级注意力机制融合的实验对比结果 Table. 5-6 The comparison results of decision-level fusion and hierarchical attention mechanism fusion 研究工作数据所用特征方法/分类器 Accuracy（%） F1 分数（%） Hu 等[59] 视频人眼视线 SVM 64 未提及 Zhang 等[60] 视频面部和肢体 LSTM 85.1 88.7 Folntisis 等[38] 关键点表情和动作 HMT 网络 70 72 本工作视频表情+动作+角度 SVM 82.37 83.39 本工作视频表情+动作+角度 LSTM 87.56 89.27 本工作视频表情+动作+角度层级注意力机制 92.44 93.68 Folntisis 等人使用面部表情和肢体动作的关键点特征，提出了一种多标签训练网络，使用关键点信息对原始视频进行处理可以有效的排除由背景信息干扰带来的误差，而本文的方法是直接对连续帧进行识别，在使用的特征方面，该方法使用的特征比本文方法所使用特征引入的误差少，具有本身的优势，于是本文不再采用和该方法同样的方法进行实验，直接进行对比。从表中可以看出，本文的层级注意力方法依然优于使用关键点的方法，在精度和 F1 分数方面分别比 HMT 高出 22.44%和 21.68%，展示出了较大的优势。通过以上的对比，本文所提出的方法无论是在特征选择的全面性，还是方法的有效性方面均高于目前的先进工作，验证了本文方法的可行性。尽管交互意图识别工作没有标准的数据集，不同工作所使用的信息和方法都各不相同，但本文的工作还是可以在其他角度与现有先进工作进行对比： a) 从数据采集上看，本工作数据集的采集只需要一个简单的网络摄像头，数据获取方式简单、成本低廉，采集到的数据规模更大，采集过程自然不易发觉。 b) 从使用的信息来看，本工作从有限的视觉信息中挖掘尽可能多的可使用特征，不依 57 广东工业大学硕士专业学位论文赖于单一特征，尽量使单个特征识别不准确的误差降到最低，提升了交互意图识别模型的鲁棒性。 c) 从模型的搭建来看，本工作针对每种信息选择适合的网络来最大程度的挖掘信息中的有效特征，最后选择注意力机制融合特征，提升了模型识别的准确性，降低了交互意图识别结果的不确定性。 d) 从识别结果来看，本工作在自建数据集上的精度达 92.44%，F1 分数达 93.68%，超出了目前最先进的工作，验证了本工作的可行性及有效性，有效提升了交互意图识别任务的自然程度。 5.4 人机互动实验为了直观的展示模型在真实交互场景中的应用效果，本文使用实验室的 Baxter 机器人进行了人机互动实验，实验设置如图 5-4 所示。Baxter 机器人头部装有摄像头，两个手臂分别有 7 个自由度，可以进行一些日常的交互动作。图 5-4 人机互动实验设置 Fig.5-4 The experiment settings of human-robot interaction 实验分为三个模块，交互者模块、交互意图识别模块和机器人动作模块。本文给 Baxter 设定的任务是通过观察交互者表现出的表情和动作，判别交互者是否想要与其进行交互。若判断为有交互意图，则根据交互者具体的交互动作给出适当动作反馈，若判断为无交互意图则保持静止。通过 Baxter 头部的摄像头读取用户输入并传输到交互意图识别模块，根据识别出的结果给机器人发送指令，指导机器人动作。该实验主要用于验证本文所提出的交互意图识别算法。交互者正对机器人站立，使用面部表情和肢体动作来表达自己是否想要与机器人交互，机器人通过摄像头获取到交互者的视频之后，将收集到的视频数据传输到电脑端进行计算，再将识别结果输 58 第五章实验及结果分析送到行为决策系统，执行交互动作。在本示例中，交互者进行了击掌的动作，机器人将摄像头收集到的图像信息传输至电脑端，在电脑端进行运算，识别视频中交互者的意图。得到了用户想要与其交互的结果之后，电脑端发送指令指导机器人动作，于是机器人回馈一个同样的击掌动作。实验过程如图 5-5 所示。帧数 1 帧数 2 帧数 3 帧数 4 帧数 5 帧数 6 图 5-5 人机互动实例 Fig.5-5 An example of human-robot interaction 5.5 本章小结本章通过一系列实验探究交互意图识别的最好结果，分别进行了特征对比实验、融合策略对比试验等，最终选择出最佳的融合策略为基于层级注意力机制的融合策略， F1 分数达 93.68%。本章还与领域内其他先进工作进行了多维度的对比。为直观的展示模型在真实场景中的应用效果，在双臂机器人上进行了测试。所有结果都表明本工作所提出的方法是有效的，通过使用面部表情信息、肢体动作信息和人脸角度信息可以有效的判别交互者是否想要与机器人进行交互，为交互意图识别领域贡献了新的方法。 59 广东工业大学硕士专业学位论文结论与展望 1. 总结随着各种服务机器人越来越广泛的进入人们的日常生活，如何提升机器人的智能程度以及人机交互的自然程度受到了国内外学者的广泛关注，交互意图识别以其符合以人为中心的智能化交互方式的特点得到了越来越深入的研究。本文面向真实的人机交互场景，提出了一种结合面部表情、肢体动作和人脸角度的交互意图识别方法，利用不同特征之间的差异性和互补性，通过特征提取及融合操作，取得了较好的交互意图识别结果。通过设置对照组测试实验，本文方法在本文所提出的数据集上 F1 分数达 93.68%，远超过使用单一特征最优秀的结果，验证了多个特征融合方法的有效性。在与其他先进工作的对比中，以 F1 分数和 Accuracy 作为评价指标，在使用与其他工作同样分类方法的情况下，本文通过结合面部表情、肢体动作和人脸角度特征所取得的结果也展现出了优势。论文完成的主要工作概括为以下 3 点：（1）针对真实交互场景提出了一种从视觉获取信息进行交互意图识别的方法。选用准确易获取的视觉信息作为模型的输入，解决了数据采集过程不自然、数据获取方式复杂的问题。与其他信息源相比，本工作仅使用 RGB 视频作为信息来源，具有非侵入性、自然性强、可接受性高等特点，符合自然人机交互的要求。（2）为解决目前交互意图识别领域数据集缺乏的问题做出了适当贡献。依据众多心理学领域的研究对表情和动作所传达的意图倾向进行归类，通过严格的标注原则对本文所创建的数据集进行了标注，确保数据集标签的保真性。除此之外还对数据集中的面部表情和肢体动作进行了单独标注，以满足单独训练和单特征实验对比的要求。（3）解决了使用单一视觉信息所带来的交互意图识别准确度低、模型不鲁棒的问题。本文针对每种信息的特点选用合适的深度学习模型来提取特征，得到的特征具有较高的代表性。为了解决小尺度的面部表情容易被侧脸、遮挡及光照等误差因素干扰的问题，引入了人脸角度特征辅助识别，提升了识别结果的准确性。通过探究不同的注意力机制融合方法对特征进行融合分类，最后选用层级注意力机制处理特征，有效提升了交互意图识别模型的准确性和鲁棒性。最后在双臂机器人平台上进行实验，验证了所提方法的有效性。 60 结论与展望 2. 未来研究展望本课题在取得了一定进展的同时，在工作过程中也发现了一些不足，由于人机交互领域发展非常迅速，未来工作可以从以下几个方面入手：（1）本文所提出的数据集虽有一定规模，但在数据驱动的深度学习时代仍然可以再对其数据量进行扩充，使数据集的体量达到万级及百万级，满足深度神经网络从头训练的要求。（2）本文所使用的视觉信息虽具有一定的代表性，但更自然的交互过程是视听同时进行的，本文所使用的视觉信息若与语音信息一起使用则会达到更自然的交互效果，满足多模态交互要求。（3）本文所提出的交互意图识别模型仅针对单个对象，且在交互过程已经开始时进行识别，未来可以面向多人甚至群体的交互意图识别，识别的时间节点也可以提前到交互过程未开始时，以便从人群中发现潜在的交互对象。（4）本文采用不同的深度神经网络去提取不同信息的特征，使得模型总体的结构较为复杂，需要计算的参数量庞大，对硬件设备的计算能力具有一定的要求。未来可以通过优化模型结构来降低模型冗余，提升运算的速度，达到实时交互的要求。 61 广东工业大学硕士专业学位论文参考文献 [1] Murphy J, Gretzel U, and Pesonen J. Marketing Robot Services in Hospitality and Tourism: The Role of Anthropomorphism [J]. Journal of Travel & Tourism Marketing, 2019, 36: 784-795. [2] Belpaeme T, Kennedy J, Ramachandran A, et al. Social Robots for Education: A Review [J]. Science Robotics,2018, 3(21). [3] Tahir Y, Dauwels J, Thalmann D, and Thalmann N M. A User Study of a Humanoid Robot as a Social Mediator for Two-Person Conversations [J]. International Journal of Social Robotics, 2018,12(5):1-14. [4] Wan S, Gu Z, and Ni Q. Cognitive Computing and Wireless Communications on the Edge for Healthcare Service Robots [J]. Computer Communications, 2020, 149:99-106. [5] Breazeal C L. Designing Sociable Robots [M]. MIT press, 2002. [6] Coronado E, Villalobos J, Bruno B, et al. Gesturebased Robot Control: Design Challenges and Evaluation with Humans [C]. Interactional Conference on Robotics and Automation, 2017. [7] Pattar S P, Coronado E, Ardila L R, et al. Intention and Engagement Recognition for Personalized Interaction, An Integrated and Deep Learning Approach [C]. IEEE Interactional Conference on Advanced Robotics and Mechatronics, 2019. [8] 王崴, 赵敏睿, 高虹霓, 等. 基于脑电和眼动信号的人机交互意图识别研究 [J].航空学报, 2020, 42(02):1-13. [9] Mazhar O, Ramdani S, Navarro B. Towards Real-Time Physical Human-Robot Interaction Using Skeleton Information and Hand Gestures [C]. IEEE/RSJ International Conference on Intelligent Robots and Systems, 2018. [10] 赵青松. 基于多模态信息融合的人体动作识别方法研究 [D]. 中国科学院大学(中国科学院深圳先进技术研究院), 2020. [11] Inthiam J, Hayashi E. Mood Estimation for Human-Robot Interaction based on Facial 62 参考文献 and Bodily Expression using a Hidden Markov Model [C]. IEEE/SICE International Symposium on System Integration, 2019. [12] Mehrabian A. Communication without Words [J]. Psychological Today, 1968, 2(11):53-55. [13] 葛列众. 工程心理学[M]. 上海:华东师范大学出版社, 2017: 163-164. [14] Zhu J, Thagard P. Emotion and action [J]. Philosophical Psychology, 2002,15:19–36. [15] Bagozzi P B, Moore D J, Leone L. Self-Control and the Self-Regulation of Dieting Decisions: The Role of Prefactual Attitudes, Subjective Norms, and Resistance to Temptation [J]. Basic and Applied Social Psychology, 2004, 26:199–213. [16] Tripples J. Fear and Fearfulness Potentiate Automatioc Orienting to Eye Gaze [J]. Cognition & Emotion, 2006, 20(2):309-320. [17] Mishra S, Gupta R, Mishra S K. Facial Expression Recognition System (FERS): A Survey [J]. Intelligent and Cloud Computing, 2021, 153:43-50. [18] Marttila J, Nupponen R. Health Enhancing Physical Activity as Perceived in Interviews Based on the Theory of Planned Behavior [J]. Psychology and Health, 2000, 15:593–608. [19] Bayless S J, Glover M, Taylor M J, et al. Is it in the Eyes? Dissociating the Role of Rmotion and Perceptual Features of Emotionally Expressive Faces in Modulating Orienting to Eye Gaze [J]. Visual Cognition, 2011, 19(4): 483-510. [20] Romaissa B D, Mourad O, Brahim N. Vision-Based Multi-Modal Framework for Action Recognition [C]. International Conference on Pattern Recognition, 2021. [21] Gelder B, Snyder J, Greve D, et al. Fear Fosters Flight: A Mechanism for Fear Contagion When Perceiving Emotion Expressed by a Whole Body [J]. National Academy of Science, 2003, 101(47): 16701–16706. [22] Argyle M. Bodily Communication [M]. Methuen & Co. Ltd., London, 1988. [23] Mondloch C J, Nelson N L, et al. Asymmetries of Influence: Different Effects on Body Postures and Perceptions of Emotional Facial expressions [J]. PLos One, 2013, 8(9):1-16. 63 广东工业大学硕士专业学位论文 [24] Konrad S, Luc J, Van G, et al. Recognizing Emotions Expressed by Body Pose: A Biologically Inspired Neural Model [J]. Neural Networks, 2008, 21(9):1238-1246, 2008. [25] Liu X, Ge S, Jiang R, et al. Intelligent Speech Control System for Human-Robot Interaction [C]. Chinese Control Conference, 2016. [26] Kautz H A, Allen J F. Generalized Plan Recognition [C]. National Conference on Artificial Intelligence, 1986. [27] Nam Y, Koo B, Cichocki A, et al. GOM-Face: GKP, EOG, and EMG-Based Multimodal Interface with Application to Humanoid Robot Control [J]. IEEE Transactions on Biomedical Engineering, 2014, 61(2): 453-462. [28] Yu Y, Chen Y, et al. A Real-time EMG-controlled Functional Electrical Stimulation System for Mirror Therapy [C]. IEEE Biomedical Circuits and Systems Conference, 2019. [29] Yang B, Huang J, Li X, et al. Natural Grasp Intention Recognition Based on Gaze Fixation in Human-Robot Interaction [J]. arXiv preprint arXiv: 2012.08703, 2020. [30] Perdana M I, Anggraeni W, Sidharta H A, et al. Early Warning Pedestrian Crossing Intention from Its Head Gesture using Head Pose Estimation [C]. International Seminar on Intelligent Technology and Its Applications, 2021. [31] Carmen C A, B Rosario. Automatic Facial Expression Recognition for the Interaction of Individuals with Multiple Disabilities [C]. International Conference on Applied Artificial Intelligence, 2021. [32] Luo J, Liu C, Wang N, et al. A Method of Intention Estimation for Human-Robot Interaction [J]. Advances in Intelligent Systems and Computing, 2020, 1043: 69-80. [33] Ye J, Guan Y, Liu J, et al. Large-Scale Multi-Model Person Identification in Real Unconstrained Environments [C]. IEEE International Conference on Robotics and Biomimetics, 2019: 1-6. [34] 刘艳婷. 基于多特征融合的专注度识别[D]. 广东工业大学, 2021. [35] Gan J, Wang N, Zuo L. Surface Electromyography (sEMG)-based Intention 64 参考文献 Recognition and Control Design for Human–Robot Interaction in Uncertain Environment [J]. 2021, 33(9): 3153-3168. [36] Khiabani H, Ahmadi M. A Classical Machine Learning Approach for Emg-Based Lower Limb Intention Detection for Human-Robot Interaction Systems [C]. IEEE International Conference on Autonomous Systems, 2021. [37] Trick S, Koert D, Peters J, et al. Multimodal Uncertainty Reduction for Intention Recognition in Human-Robot Interaction [C]. IEEE/RSJ International Conference on Intelligent Robots and Systems, 2019. [38] Filntisis P P, Efthymiou N, Koutras P, et al. Fusing Body Posture with Facial Expressions for Joint Recognition of Affect in Child–Robot Interaction [J]. IEEE Robotics and Automation Letters, 2019, 4(4): 4011-4018. [39] Michael J. “Excavating AI” Re-excavated: Debunking a Fallacious Account of the JAFFE Dataset [J]. arXiv preprint arXiv:2107.13998, 2021. [40] Patrick L, Jeffrey F C, Takeo K, et al. The Extended Cohn-Kanade Dataset (CK+): A Complete Dataset for Action Unit and Emotion-Specified Expression [C]. International Conference on Computer Vision and Patten Recognition, 2010. [41] Gunes H, Piccardi M. A Bimodal Face and Body Gesture Database for Automatic Analysis of Human Nonverbal Affective Behavior [C]. International Conference on Pattern Recognition, 2006. [42] Glowinski D, Camurri A, Volpe G, et al. Technique for Automatic Emotion Recognition by Body Gesture Analysis [C]. Computer Society Conference on Computer Vision and Pattern Recognition Workshops, 2008. [43] Castellano G, Villalba S D, Camurri A. Recognising Human Emotions from Body Movement and Gesture Dynamics [C]. International Conference on Affective Computing and Intelligent Interaction, 2007. [44] Fourati N, Pelachaud C. Emilya: Emotional Body Expression in Daily Actions Database [C]. Interactional Conference on Language Resource and Evaluation, 2014. [45] Kipp M, Martin J C. Gesture and emotion: Can Basic Gestural form Features 65 广东工业大学硕士专业学位论文 Discriminate Emotions [C]. International Conference on Affective Computing and Intelligent Interaction and Workshops, 2009. [46] Ekman P, Friesen W V, O’Sullivan M, et al. Universals and Cultural Differences in the Judgments of Facial Expressions of Emotion [J]. Journal of Personality and Social Psychology, 1987, 53(4): 712-717. [47] Plutchik R. A General Psychoevolutionary Theory of Emotion [M]. Theories of Emotion, 1980: 3-33 [48] Russell S J, Subramanian D. Provably Bounded-Optimal Agents [J]. Journal of Artificial Intelligence Research, 1994, 2: 575-609. [49] Mehrabian A. Basic dimensions for a General Psychological Theory: Implications for Personality, Social, Environmental, and Developmental Studies [M]. Oelgeschlager, Gunn & Hain Cambridge, 1980. [50] Laham S M, Kashima Y, Dix J. A Meta-Analysis of the Facilitation of Arm Flexion and Extension Movements as a Function of Stimulus Valence [J]. Congnition&Emotion, 2014, 29: 1-22. [51] Deng J, Guo J, Zhou Y, et al. Retinaface: Single-Stage Dense Face Localization in the Wild [J]. arXiv preprint arXiv: 1905.00641, 2019. [52] Qin Z, Wu J. Visual Saliency Maps Can Apply to Facial Expression Recognition [J]. arXiv preprint arXiv: 1181.04544, 2018. [53] Goodfellow I J, Erhan D, et al. Challenges in Representation Learning: A Report on Three Machine Learning Contests [C]. Interactional Conference on Neural Information Processing, 2013: 117-124. [54] Srivastava N, Hinton G, et al. Dropout: A Simple Way to Prevent Neural Networks from Overfitting [J]. The Journal of Machine Learning Research, 2014, 15(1): 1929-1958. [55] Simonyan K, Zisserman A. Two-Stream Convolutional Networks for Action Recognition in Videos [C]. Neural Information Processing Systems, 2014. [56] Tran D, Bourdev L, Fergus R, et al. Learning Spatiotemporal Features with 3D 66 参考文献 Convolutional Networks [C]. International Conference on Computer Vision, 2015. [57] Redmon J, Farhadi A. Yolov3: An Incremental Improvement [J]. arXiv preprint arXiv: 1804.02767, 2018. [58] Ruiz N, Chong E J, Rehg J M. Fine-Grained Head Pose EstimationWithout Keypoints [J]. arXiv preprint arXiv: 1710.00925, 2018. [59] Hu B, Liu X, Wang W, et al. Prediction of Inteeaction Intention Based on Eye Movement Gaze Feature [C]. International Information Technology and Artificial Intelligence Conference, 2019. [60] Zhang Z, Zheng J, Nadia M T. Engagement Intention Estimation in Multiparty Human-Robot Interaction [C]. Interactional Conference on Robot and Human Interactive Communication, 2021. 67 广东工业大学硕士专业学位论文攻读学位期间取得与学位论文相关的成果发表的与学位论文相关学术论文 1. Shengtian Yang, Yisheng Guan, Yihui Li and Wenjing Shi. Interaction Intention Recognition via Human Emotion for Human-Robot Natural Interaction [C]. IEEE/ASME International Conference on Advanced Intelligent Mechatronics (AIM), 2022. 68 学位论文独创性声明及学位论文版权使用授权声明学位论文独创性声明本人郑重声明：所呈交的学位论文是我个人在导师的指导下进行的研究工作及取得的研究成果。尽我所知，除了文中特别加以标注和致谢的地方外，论文中不包含其他人已经发表或撰写过的研究成果。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明，并表示了谢意。本人依法享有和承担由此论文所产生的权利和责任。论文作者签名：日期：2022 年 5 月 30 日学位论文版权使用授权声明本学位论文作者完全了解学校有关保存、使用学位论文的规定： “研究生在广东工业大学学习和工作期间参与广东工业大学研究项目或承担广东工业大学安排的任务所完成的发明创造及其他技术成果，除另有协议外，归广东工业大学享有或特有”。同意授权广东工业大学保留并向国家有关部门或机构送交该论文的印刷本和电子版本，允许该论文被查阅和借阅。同意授权广东工业大学可以将本学位论文的全部或部分内容编入有关数据库进行检索，可以采用影印、缩印、扫描或数字化等其他复制手段保存和汇编本学位论文。保密论文在解密后遵守此规定。论文作者签名：日期：2022 年 5 月 30 日指导教师签名：日期：2022 年 5 月 30 日 69 广东工业大学硕士专业学位论文致谢不知不觉间，三年的研究生时光已经走到了尽头，我在学校这座象牙塔里面的生活也只剩最后一段旅程了。回想起三年前刚来到实验室的自己，从最初对科研一知半解，到最后能独立完成自己的课题任务，期间体会过遇到困难时的焦虑烦闷，也体会过问题解决时的豁然开朗。这三年期间，我收获的不仅是科研能力的提升，更重要的是对我心性的磨练，让我学会在逆境中不放弃，在顺境中不自满，不被一时的负面情绪所困扰，重新塑造了我的品格。这三年中有太多要感谢的人，我的师长，我的同学，我的家人，是他们的付出给了我做科研的基础、能力和动力。大学之大不在大楼，乃在大师。特别感谢管贻生教授在实验室面试的时候给了我机会，让我能有幸加入到仿生与智能机器人实验室这个大家庭，给我们提供了非常好的科研平台，让我能从事机器人领域的课题研究。管老师对待学术认真的态度深深的影响着我，让我明白做学问需要钻研，需要刻苦，领域不是最重要的，重要的是自己的科研态度，只要肯下功夫肯钻研，一定可以在茫茫学海中找到自己的一方天地。感谢实验室朱海飞副教授、张涛副教授、何力副教授以及项超群老师，对朱老师的钦佩见于每次研讨会上一阵见血的提问和观点明确的解答，对张老师的钦佩见于和同学们同屋学习的高度自律，对何老师的钦佩见于教学的认真和生活中的活泼，对项老师的钦佩见于高度的科研热情、勤恳的工作作风。实验室老师们以自身的卓越品质感染着我，让我时刻被优秀品质吸引，向优秀老师们看齐。感谢实验室同学们在科研上对我的帮助，在生活中带来的乐趣。作为机械专业出身，突然跨界去做计算机领域的课题，这对我来说虽是机遇，但更大的是挑战，语言基础和知识基础都不扎实，在课题一开始的时候眼前一片茫然。还好有实验室相同研究方向的同学可以一起探讨学习，感谢梁鸿泽同学和邹海华同学毫无保留的给我推荐书籍、课程，耐心解答我的一个又一个问题，让我少走了许多弯路；感谢王斌、梁智豪、宋耀威、林尚灿等同学在日常科研中的照顾，让我了解了很多其他领域的知识；感谢管老师的偶然安排，让我收获了施雯静师妹这样一个好朋友；感谢莫森宇、陈晓瀚、陈宏楷、邱榆、张银梁等这些可爱又厉害的师弟们，给我提供了很多正向的情绪价值；感谢 19 级所有同学的在生活中带来的乐趣，每次月结会后的聚餐都非常开心放 70 致谢松，为下个月的认真科研积攒了动力；同时非常感谢所有帮助我进行数据采集的同学，让我可以完成我的课题研究；感谢课题组的黎奕辉博士在课题和论文修改方面给我的指导，感谢刘艳婷师姐在课题实施方面给予的帮助，感谢苏满佳博士在我焦虑时的开解，是你们的照顾让我三年来的科研生涯虽有焦虑、有烦闷，也有乐趣、有精彩。求学十九载，感谢我的家人一直在背后默默付出，一直无条件支持我的决定。感谢小伙伴翁肖涵，帮我查考研成绩，陪我来广州复试，给了我莫大的支持；感谢赵静雯同学的时常交流问候，让我知道大家的研究生生活一样艰难；感谢夏瑞强同学，在我科研最低谷的时候走进了我的生活，照亮了我的现在和未来。每段旅途都是财富，我将带着从学校积攒多年的收获走向社会，入人海，做浪花。杨生甜 2022 年 5 月于广州大学城 71 ｉ＾   ０  ＿，麵奮   ｜？ＪｓｉＨｓ．ｌ   麵 ｍ  Ｐ  

人机交互意图识别硕士论文

Products

Support

人机交互意图识别硕士论文

Add this document to collection(s)

Add this document to saved

Suggest us how to improve StudyLib