说明:收录25万 73个行业的国家标准 支持批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111680115.6 (22)申请日 2021.12.3 0 (71)申请人 深圳云天励飞技 术股份有限公司 地址 518000 广东省深圳市龙岗区园山 街 道龙岗大道8288号深圳大运软件小镇 17栋1楼 (72)发明人 马逸衡 蔡万伟  (74)专利代理 机构 深圳中一联合知识产权代理 有限公司 4 4414 代理人 左婷兰 (51)Int.Cl. G06N 20/00(2019.01) G06N 3/08(2006.01) (54)发明名称 一种算子融合方法、 装置、 终端设备及存储 介质 (57)摘要 本申请适用于深度学习技术领域, 提供了一 种算子融合方法、 装置、 终端设备及存储介质, 该 方法包括: 先获取深度学习模型的依赖图, 基于 预设的各类原子算子对应的算子数组, 将依赖图 中的算子进行分组, 得到的每组算子为依赖图的 一个原子算子; 根据依赖图中的原子算子, 得到 由依赖图中的原子算子组成的各个目标原子组; 将目标原子组中的算子进行融合, 得到深度学习 模型的计算图。 本申请先根据 原子算子将深度学 习模型中的算子组合成原子算子, 然后再将原子 算子进行组合, 得到目标原子组, 实现算子的多 次组合, 本申请将多次组合后的算子进行融合, 得到的深度学习模型的结构能更高效利用硬件 算力, 因此计算速度更 快。 权利要求书2页 说明书12页 附图5页 CN 114418114 A 2022.04.29 CN 114418114 A 1.一种算子融合方法, 其特 征在于, 包括: 获取待处理的深度学习模型的依赖 图, 其中, 所述依赖 图包括所述深度学习模型中各 个算子的顺序; 基于预设的各类原子算子对应的算子数组, 将所述依赖 图中的算子进行分组, 得到的 每组算子为所述依赖图的一个原子算子, 其中, 若 所述一个原子算子中包括至少两个算子, 所述至少两个算子在所述依赖图中连续; 根据所述依赖图中的原子算子组成的原子算子序列, 得到由所述依赖图中的原子算子 组成的各个目标原子组, 其中, 一个目标原子组中若包括至少两个所述原子算子, 所述至少 两个所述原子算子在所述原子算子序列中连续; 将所述目标原子组中的算子进行融合, 得到所述深度学习模型的计算图。 2.如权利要求1所述的算子 融合方法, 其特征在于, 所述基于预设的各类原子算子对应 的算子数组, 将所述依赖图中的算子进行分组, 包括: 利用深度优先搜索算法遍历所述 算子数组, 得到各类原子算子对应的算子序列集; 从所述算子序列集中筛选出满足目标芯片的硬件特性的算子序列集, 将满足所述目标 芯片的硬件特性的算子序列集作为第一序列集, 其中, 所述 目标芯片为运行所述深度学习 模型的芯片; 将所述依赖图中的算子序列 与各个所述第一序列集进行匹配; 若所述依赖图中的算子序列与所述第 一序列集相匹配, 将所述依赖图中与 所述第一序 列集相匹配的算子序列 作为一组算子 。 3.如权利要求1所述的算子 融合方法, 其特征在于, 所述根据所述依赖图中的原子算子 组成的原子算子序列, 得到由所述依赖图中的原子算子组成的各个目标原子组, 包括: 确定所述原子算子序列中的尾节点原子算子, 其中, 所述尾节点原子算子为预设类型 的原子算子; 基于所述尾节点原子算子, 确定所述依赖图中的候选原子组, 其中, 所述候选原子组包 括所述依赖图中的至少一个原子算子, 在所述候选原子组中包括至少两个所述原子算子 时, 所述至少两个所述原子算子在所述原子算子序列中连续; 计算各个所述 候选原子组的收益 值; 基于各个所述收益值, 确定所述候选原子组中的最优原子组, 所述最优原子组为所述 目标原子组。 4.如权利要求3所述的算子融合方法, 其特征在于, 所述基于所述尾节点原子算子, 确 定所述依赖图中的候选原子组, 包括: 基于所述尾节点原子算子对所述原子算子序列进行切分, 得到各个原子算子组, 其中, 每个原子算子组包括一个尾节点原子算子、 且 所述尾节点原子算子为所述原子算子组中的 原子算子序列的最后一个原子算子; 基于各个所述原子算子组, 确定所述依赖图中的候选原子组, 其中, 在所述候选原子组 包括至少两个原子算子时, 所述候选原子组包括的所述至少两个原子算子属于同一所述原 子算子组。 5.如权利要求3所述的算子 融合方法, 其特征在于, 所述计算各个所述候选原子组的收 益值, 包括:权 利 要 求 书 1/2 页 2 CN 114418114 A 2确定第i个候选原子组中各个原子算子的第一成本值, 其 中, i=1, 2, ……n, n为所述候 选原子组的总个数; 确定所述第i个候选原子组的第二成本值; 基于各个所述第一成本值和所述第二成本值, 得到所述第i个候选原子组的收益 值。 6.如权利要求5所述的算子 融合方法, 其特征在于, 所述基于各个所述第 一成本值和所 述第二成本值, 得到所述第i个候选原子组的收益 值, 包括: 计算各个所述第一成本值的和, 得到第一和值; 计算所述第 一和值减去所述第 二成本值的差值, 所述第 一和值减去所述第 二成本值的 差值为所述第i个候选原子组的收益 值。 7.如权利要求3所述的算子融合方法, 其特征在于, 所述基于各个所述收益值, 确定所 述候选原子组中的最优原子组, 包括: 确定各个所述收益 值中大于预设值的收益 值; 基于各个大于预设值的收益 值对应的候选原子组, 确定所述 最优原子组。 8.一种算子融合装置, 其特 征在于, 包括: 数据获取模块, 用于获取待处理的深度 学习模型的依赖图, 其中, 所述依赖图包括所述 深度学习模型中各个算子的顺序; 第一分组模块, 用于基于预设的各类原子算子对应的算子数组, 将所述依赖 图中的算 子进行分组, 得到的每组算子为所述依赖图的一个原子算子, 其中, 若 所述一个原子算子中 包括至少两个算子, 所述至少两个算子在所述依赖图中连续; 第二分组模块, 用于根据所述依赖 图中的原子算子组成的原子算子序列, 得到由所述 依赖图中的原子算子组成的各个目标原子组, 其中, 一个目标原子组中若包括至少 两个所 述原子算子, 所述至少两个所述原子算子在所述原子算子序列中连续; 算子融合模块, 用于将每个所述目标原子组中的算子进行融合, 得到所述深度学习模 型的计算图。 9.一种终端设备, 包括存储器、 处理器以及存储在所述存储器中并可在所述处理器上 运行的计算机程序, 其特征在于, 所述处理器执行所述计算机程序时实现如权利要求1至7 任一项所述的算子融合方法。 10.一种计算机可读存储介质, 所述计算机可读存储介质存储有计算机程序, 其特征在 于, 所述计算机程序被处 理器执行时实现如权利要求1至7任一项所述的算子融合方法。权 利 要 求 书 2/2 页 3 CN 114418114 A 3

.PDF文档 专利 一种算子融合方法、装置、终端设备及存储介质

文档预览
中文文档 20 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种算子融合方法、装置、终端设备及存储介质 第 1 页 专利 一种算子融合方法、装置、终端设备及存储介质 第 2 页 专利 一种算子融合方法、装置、终端设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 19:30:16上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。