说明:收录25万 73个行业的国家标准 支持批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111387298.2 (22)申请日 2021.11.22 (71)申请人 西安电子科技大 学 地址 710000 陕西省西安市雁塔区太白南 路2号 (72)发明人 公茂果 刘昊 李豪 乔文远  张明阳 唐泽栋 刘洁怡 蒋祥明  (74)专利代理 机构 西安嘉思特知识产权代理事 务所(普通 合伙) 6123 0 代理人 王萌 (51)Int.Cl. G06V 10/44(2022.01) G06V 10/764(2022.01) G06V 10/82(2022.01) G06K 9/62(2022.01)G06N 3/04(2006.01) G06N 3/08(2006.01) G06N 20/00(2019.01) (54)发明名称 基于嵌入特征相似度的注意力迁移的神经 网络压缩方法 (57)摘要 本发明公开了一种基于嵌入特征相似度的 注意力迁移的神经网络压缩方法, 包括: 获取多 个训练样 本, 每个训练样本包括样 本图像以及样 本图像对应的类别; 确定第一待训练神经网络模 型后, 利用训练样本训练第一待训练神经网络模 型, 得到教师网络; 利用教师网络生成第一注意 力图向量; 确定第二待训练神经网络模型后, 利 用训练样本及预设损失函数训练第二待训练神 经网络, 并根据第二待训练神经网络模 型生成的 第二注意力图向量及输出结果确定损失值; 当预 设损失函数的损失值满足预设条件时, 第二待训 练神经网络训练完成, 获得压缩后的学生网络。 本发明在达到任务分类要求的同时, 有效提高了 训练的速度和精度, 得到了效果更好的小规模网 络。 权利要求书2页 说明书8页 附图4页 CN 114387447 A 2022.04.22 CN 114387447 A 1.一种基于嵌入特 征相似度的注意力迁移的神经网络 压缩方法, 其特 征在于, 包括: 获取多个训练样本, 每 个所述训练样本包括样本图像以及所述样本图像对应的类别; 确定第一待训练神经网络模型后, 利用所述训练样本训练所述第 一待训练神经网络模 型, 得到教师网络; 利用所述教师网络生成第一注意力图向量; 确定第二待训练神经网络模型后, 利用所述训练样本及预设损失函数训练所述第 二待 训练神经网络, 并根据所述第二待训练神经网络模型生成的第二注意力图向量及输出结果 确定损失值; 其中, 所述预设损失函数的损失值包括第一损失值和 第二损失值, 所述第一损 失值为交叉熵损失值、 所述第二损失值为第一注 意力图向量与第二注意力图向量之 间的损 失值; 当预设损 失函数的损 失值满足预设条件时, 所述第二待训练神经网络训练完成, 获得 压缩后的学生网络 。 2.根据权利要求1所述的基于嵌入特征相似度的注意力迁移的神经网络压缩方法, 其 特征在于, 所述第一待训练神经网络模型及所述第二待训练神经网络模型为宽残差网络 。 3.根据权利要求1所述的基于嵌入特征相似度的注意力迁移的神经网络压缩方法, 其 特征在于, 所述利用所述教师网络生成第一注意力图向量的步骤, 包括: 确定所述教师网络中生成注意力图的位置; 获得所述教师网络在所述位置处的数据, 将每个数据卷积后的激活张量Z∈RC×H×W通过 预设激活函数映射到空间维度, 得到第一注意力图; 其中, H ×W表示空间维度, C表 示特征通 道, 所述预设激活函数为 Zi表示第i个特 征通道上的激活张量; 将所述第一注意力图向量 化后得到第一注意力图向量。 4.根据权利要求3所述的基于嵌入特征相似度的注意力迁移的神经网络压缩方法, 其 特征在于, 所述教师网络包括: 第一输入层、 第一输出层、 以及位于所述第一输入层与所述 第一输出层之间的多个第一隐藏层, 所述多个第一隐藏层被预先划分为第一子模块、 第二 子模块和第三子模块; 所述教师网络 中生成注意力图的位置包括第 一子模块的输出、 第 二子模块的输出和第 三子模块的输出。 5.根据权利要求1所述的基于嵌入特征相似度的注意力迁移的神经网络压缩方法, 其 特征在于, 所述根据所述第二待训练神经网络模型生成的第二注意力图向量及输出结果确 定损失值的步骤之前, 还 包括: 根据所述第一注意力图向量及所述第二注意力图向量, 确定To nimoto系数。 6.根据权利要求5所述的基于嵌入特征相似度的注意力迁移的神经网络压缩方法, 其 特征在于, To nimoto系数为: 式中, 表示教师网络中j个第一注意力图向量, VSj表示待训练第二待训练神经网络 中第j个第二注意力图向量。权 利 要 求 书 1/2 页 2 CN 114387447 A 27.一种基于嵌入特 征相似度的注意力迁移的神经网络 压缩装置, 其特 征在于, 包括: 获取模块, 用于获取多个训练样本, 每个所述训练样本包括样本 图像以及所述样本 图 像对应的类别; 第一训练模块, 用于确定第一待训练神经网络模型后, 利用所述训练样本训练所述第 一待训练神经网络模型, 得到教师网络; 生成模块, 用于利用所述教师网络生成第一注意力图向量; 第二训练模块, 用于确定第二待训练神经网络模型后, 利用所述训练样本及预设损 失 函数训练所述第二待训练神经网络, 并根据所述第二待训练神经网络模型生成的第二注意 力图向量及输出结果确定损失值; 其中, 所述预设损失函数 的损失值包括第一损失值和第 二损失值, 所述第一损失值为交叉熵损失值、 所述第二损失值为第一注意力图向量与第二 注意力图向量之间的损失值; 获得模块, 用于当预设损 失函数的损 失值满足预设条件时, 所述第二待训练神经网络 训练完成, 获得压缩后的学生网络 。 8.一种电子设备, 其特征在于, 包括处理器、 通信接口、 存储器和通信总线, 其中, 处理 器, 通信接口, 存 储器通过通信总线完成相互间的通信; 存储器, 用于存放计算机程序; 处理器, 用于执 行存储器上所存放的程序时, 实现权利要求1 ‑6任一所述的方法步骤。权 利 要 求 书 2/2 页 3 CN 114387447 A 3

.PDF文档 专利 基于嵌入特征相似度的注意力迁移的神经网络压缩方法

文档预览
中文文档 15 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于嵌入特征相似度的注意力迁移的神经网络压缩方法 第 1 页 专利 基于嵌入特征相似度的注意力迁移的神经网络压缩方法 第 2 页 专利 基于嵌入特征相似度的注意力迁移的神经网络压缩方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 19:01:51上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。