说明:收录25万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210805013.0 (22)申请日 2022.07.08 (71)申请人 深圳市优必选科技股份有限公司 地址 518000 广东省深圳市南 山区学苑大 道1001号南山智园C1栋16、 2 2楼 (72)发明人 王涵柳 庞建新  (74)专利代理 机构 北京超凡宏宇专利代理事务 所(特殊普通 合伙) 11463 专利代理师 王新哲 (51)Int.Cl. G06V 40/16(2022.01) G06V 10/44(2022.01) G06V 10/774(2022.01) G06V 10/82(2022.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称 模型训练方法、 装置、 计算机设备及可读存 储介质 (57)摘要 本申请实施例提供了一种模 型训练方法、 装 置、 计算机设备及可读存储介质, 利用具备多任 务特征处理功能的教师网络训练学生网络, 所述 模型训练方法包括: 通过预设的教师网络和学生 网络分别处理样本图片, 以得到教师网络的中间 层输出的第一图片特征矩阵, 以及, 学生网络的 中间层输 出的第二图片特征矩阵; 使用第二图片 特征矩阵拟合所述第一图片特征矩阵, 构建用于 优化学生网络模 型参数的第一损失函数。 本申请 通过使用教师网络的图片特征矩 阵拟合学生网 络的图片特征矩阵的方式, 能够 有效节省多任务 网络知识蒸馏的时间。 权利要求书2页 说明书10页 附图3页 CN 115240250 A 2022.10.25 CN 115240250 A 1.一种模型训练方法, 其特征在于, 利用具备多任务特征处理功能的教师网络训练学 生网络, 所述方法包括: 利用样本图片分别输入教师网络和学生网络, 获取所述教师网络的中间层输出的第 一 图片特征矩阵, 以及, 所述学生网络的中间层输出的第二图片特 征矩阵; 利用所述第二图片特 征矩阵拟合所述第一图片特 征矩阵, 以构建第一损失函数; 利用所述第一损失函数优化所述学生网络的模型参数。 2.根据权利要求1所述的方法, 其特征在于, 所述利用样本图片分别输入教师网络和学 生网络的步骤之后, 所述方法还 包括: 获取所述教师网络的分类层输出的第三图片特征矩阵, 以及, 所述学生网络的分类层 输出的第四图片特 征矩阵; 利用所述第四图片特 征矩阵拟合所述第三图片特 征矩阵, 以构建第二损失函数; 所述利用所述第一损失函数优化所述学生网络的模型参数的步骤, 包括: 利用所述第一损失函数和所述第二损失函数优化所述学生网络的模型参数。 3.根据权利要求2所述的方法, 其特征在于, 多任务的数量为N, 多任务包括分类任务和 回归任务; 所述利用样本图片分别输入教师网络和学生网络的步骤之后, 所述方法还 包括: 获取所述教师网络针对N个任务输出的教师结果真值, 以及, 所述学生网络针对N个任 务输出的学生结果真值; 利用各任务对应的学生结果真值拟合对应的教师结果真值, 构建对应各任务的第 三损 失函数; 所述利用所述第一损失函数和所述第二损失函数优化所述学生网络的模型参数的步 骤, 包括: 利用所述第 一损失函数、 所述第 二损失函数和全部任务对应的第 三损失函数优化所述 学生网络的模型参数。 4.根据权利要求1所述的方法, 其特征在于, 所述获取所述教师网络的中间层输出的第 一图片特征矩阵, 以及, 所述学生网络的中间层输出的第二图片特征矩阵的步骤之前, 所述 方法还包括: 使用注意力特 征约束操作提取 所述样本图片的注意力焦点区域的特 征。 5.根据权利要求4所述的方法, 其特征在于, 注意力特征约束操作采用使用CA ‑ attention block技术。 6.根据权利要求3所述的方法, 其特征在于, 所述利用所述第 二图片特征矩阵拟合所述 第一图片特 征矩阵, 以构建第一损失函数的步骤, 包括: 采用MSEloss对所述第二 图片特征矩阵和所述第一 图片特征矩阵进行特征蒸馏, 构建 所述第一损失函数。 7.根据权利要求3所述的方法, 其特征在于, 所述利用所述第四图片特征矩阵拟合所述 第三图片特 征矩阵, 以构建第二损失函数的步骤, 包括: 采用SmoothL1loss对所述第四 图片特征矩阵和所述第三图片特征矩阵进行特征蒸馏, 构建所述第二损失函数。 8.一种模型训练装置, 其特征在于, 利用具备多任务特征处理功能的教师网络训练学权 利 要 求 书 1/2 页 2 CN 115240250 A 2生网络, 所述装置包括: 获取模块, 用于利用样本 图片分别输入教师网络和学生网络, 获取所述教师网络的中 间层输出的第一图片特 征矩阵, 以及, 所述学生网络的中间层输出的第二图片特 征矩阵; 拟合模块, 用于利用所述第二图片特征矩阵拟合所述第一图片特征矩阵, 以构建第一 损失函数; 优化模块, 用于利用所述第一损失函数优化所述学生网络的模型参数。 9.一种计算机设备, 其特征在于, 所述计算机设备包括存储器以及处理器, 所述存储器 存储有计算机程序, 所述计算机程序在所述处理器运行时执行权利要求 1至7中任一项所述 的模型训练方法。 10.一种计算机可读存储介质, 其特征在于, 其存储有计算机程序, 所述计算机程序在 处理器上运行时执 行权利要求1至7中任一项所述的模型训练方法。权 利 要 求 书 2/2 页 3 CN 115240250 A 3

PDF文档 专利 模型训练方法、装置、计算机设备及可读存储介质

文档预览
中文文档 16 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 模型训练方法、装置、计算机设备及可读存储介质 第 1 页 专利 模型训练方法、装置、计算机设备及可读存储介质 第 2 页 专利 模型训练方法、装置、计算机设备及可读存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-24 00:41:03上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。