专利 一种基于深度学习的轻量级手势识别方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210268407.7 (22)申请日 2022.03.18 (71)申请人哈尔滨理工大学地址 150080 黑龙江省哈尔滨市南岗区学府路52号 (72)发明人蔡向东　王庆鑫　 (51)Int.Cl. G06V 40/10(2022.01) G06V 10/44(2022.01) G06V 10/762(2022.01) G06V 10/764(2022.01) G06V 10/82(2022.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种基于深度学习的轻量级手势识别方法 (57)摘要本发明公开了一种基于深度学习的轻量级手势识别方法，属于人工智能技术领域。所述方法包括以下步骤：在手部检测阶段，提出了改进的MobileNetv2 ‑YOLOv3网络结构，在保证准确率的同时大幅度减小模型的参数量以及计算量；在手部关键点检测阶段，提出了基于注意力的选择性手势蒸馏方法(Attention ‑based Selective Hand Distillation,ASHD)，首先设计表达能力强、参数量大的知识网络(Teacher Model,T)和轻量型基础网络(Student Model,S)，然后通过基于注意力的手势蒸馏方法有选择的迁移知识网络的结构化知识，联合真实标签共同训练参数量少的基础网络；在手势分类阶段，采用ResNet 作为基础网络，同时结合一系列trick s来提高模型的泛化能力。本发明所述方法用来设计一种轻量化模型，在保证准确率的同时降低计算量，能够部署在算力要求不大的嵌入式设备上。权利要求书1页说明书5页附图2页 CN 114529949 A 2022.05.24 CN 114529949 A 1.一种基于深度学习的轻量级手势识别方法，其特征在于，包括以下步骤：步骤S1、建立手势检测图像库及标签库：包括多种场景下的手势，图像为自然场景下的手势图片和影视作品中的手势图片，按照图片像素宽度不超过1024或像素高度不低于720 的规则进行等比缩放；步骤S2、建立深度学习目标检测模型：采用改进的MobileNetv2 ‑YOLOv3算法来实现手部检测框的快速定位；改进的MobileNetv2 ‑YOLOv3算法用基础网络MobileNetv2进行特征提取，输出三种不同尺度的特征图，对不同尺度的特征图进行融合，可以同时实现大目标、小目标的识别；步骤S3、建立手部关键点检测模型：采用基于注意力机制的选择性手势蒸馏方法 (Attention‑based Selective Hand Distillation,ASHD)来实现手部关键点的准确定位；步骤S4、建立深度学习图像分类模型：采用深度残差网络ResNet， ResNet包含49层卷积层，除了第一层是7*7卷积外，其余都是1*1卷积和3*3卷积，其包含残差模块，最后一层为 SoftMax分类层；步骤S5、数据增强：利用数据扩增技术扩充步骤S2、 S3的图片集，增加图片集的多样性，包括随机地将原图像通过旋转、平移、裁剪等数据增强操作变换为一张新的图片，使其作为训练时的数据输入；步骤S6、训练手部检测模型：对步骤S1建立的手势数据集包括图片集和标签集进行训练集与测试集的划分，比例为8： 2，利用步骤S2中改进的是MobileNetv2 ‑YOLOv3目标检测模型通过反向传播算法在训练集上进行训练，训练过程中使用SGD优化器对梯度进行更新，最终得到手部检测模型；步骤S7、训练手部关键点检测模型：对步骤S1建立的手势数据集包括图片集和标签集进行训练集与测试集的划分，比例为8： 2，利用步骤S3中的ASHD方法在训练集上进行训练，最终得到手部关键点检测模型；步骤S8、训练手势分类模型：对步骤S1建立的手势数据集包括图片集和标签集进行训练集与测试集的划分，比例为8： 2，利用步骤S4所建立的ResNet图像分类模型通过反向传播算法在训练集上训练，训练过程中使用SGD优化器对梯度进行更新，最终得到手势分类模型；步骤S9、手势识别：将待检测的手势影像输入到手部目标检测模型中，获得手部图像区域；将手部图像区域送入到ASHD手部关键点检测模型中得到手部关键点的坐标以及连线；最后将手部图像区域送入到手势分类模型中得到手势动作的标签值；所述的一种基于深度学习的轻量级手势识别方法，其特征在于，所述步骤S2 ‑S4中，选用的网络以及算法同时兼顾了准确率与计算量，能够实现准确而且快速的手势识别；所述的一种基于深度学习的轻量级手势识别方法，其特征在于，所述步骤S6 ‑S7中，训练所用的初始化模型为在COCO数据集上训练所得到的模型。权　利　要　求　书 1/1 页 2 CN 114529949 A 2一种基于深度学习的轻量级手势识别方法技术领域 [0001]本发明专利属于人工智能技术领域，特别涉及一种基于深度学习的轻量级手势识别方法。背景技术 [0002]人机交互技术作为计算机领域的一个重点研究方向，随着深度学习等技术的发展，取得了很大的进展。手势具有丰富的表达能力，有着非常大的应用前景和价值。手势识别技术在虚拟现实、机器人领域、智能家居等领域具有很强的应用前景。专利《基于手势识别手套的手势识别方法、系统及手势识别手套》完整地提取出了手势，但手势识别手套限制了更多手势姿势的表达且并在与人手的接触中依赖于数据手套中传感器的灵敏性；专利《一种基于深度学习的手势识别方法及设备》提出了一种手势识别的完整流程，但没有对模型进行压缩，无法达到实时性的检测要求。针对上述问题，本发明将从模型的内存占比以及计算量上出发，设计了一种基于深度学习的轻量级手势实时识别算法，在保证模型检测精度与速度均衡的同时，尽可能减小模型的训练时间及模型占比内存，使其有利于在移动端设备上的部署。发明内容 [0003]本发明旨在提供基于深度学习的轻量级手势识别算法，可部署在轻量级嵌入式设备上，提高设备的运行速度。为实现以上目的，本发明采用如下技术方案： [0004]步骤S1、建立手势检测图像库及其标签库：包括多种场景下的手势，图像为自然场景下的手势图片和影视作品中的手势图片，按照图片像素宽度不超过102 4或像素高度不低于720的规则进行等比缩放。 [0005]步骤S2、建立深度学习目标检测模型：采用改进的MobileNetv2 ‑YOLOv3算法来实现手部检测框的快速定位；改进的MobileNetv2 ‑YOLOv3算法用基础网络MobileNetv2进行特征提取，输出三种不同尺度的特征图，对不同尺度的特征图进行融合，可以同时实现大目标、小目标的识别。 [0006]步骤S3、建立手部关键点检测模型：采用基于注意力机制的选择性手势蒸馏方法 (Attention ‑based Selective Hand Distillation,ASHD)来实现手部关键点的准确定位； ASHD涉及到两个网络，知识网络(Teacher Model,T)和轻量型基础网络(Student Model, S)，同时使用注意力机制，对传递的知识进行挖掘和区分，让基础网络尽可能有选择学到更多有用的知识，以此提高S模型的性能。 [0007]步骤S4、建立深度学习图像分类模型：采用深度残差网络ResNet， ResNet包含49层卷积层，除了第一层是7*7卷积外，其余都是1*1卷积和3*3卷积，其包含残差模块，最后一层为SoftMax分类层；另外，加入数据增强方法，包括旋转、裁剪等，对图像使用Mix ‑up数据增强，以线性插值的方式来构建新的训练样本和标签，提高模型的拟合能力；为了防止过拟合，继续加入Label smoothing正则化方法，防止模型在训练时过于自信地预测标签，改善说　明　书 1/5 页 3 CN 114529949 A 3

专利 一种基于深度学习的轻量级手势识别方法

专利一种基于深度学习的轻量级手势识别方法